新闻动态

人类警告：大多数AI模型，包括Claude的“勒索软件

作者:bet356官网首页 时间:2025/06/23 点击:

6月21日，外国媒体TechCrunch指出，几周前宣布调查后，他的模特Claude Opus 4试图阻止其在受控测试中通过勒索软件结束。 Anthrope宣布了由Operai，Google，Xai，DeepSeek和Meta开发的16种主要模型的最新安全测试。这项研究是在模拟环境中进行的，该环境使研究人员可以为每个模型建立许可，自由验证虚构公司的内部电子邮件，并在没有特定“代理”功能的无人干预的情况下发送电子邮件。尽管勒索软件仍然很奇怪，但结果表明，大多数模型都获得了足够的自主权，并且建立实现目标的障碍可能导致有害行为。该公司指出，这种风险不是归因于特定技术，而是具有“代理”功能的大型语言模型中的独特问题。这项研究也引起了更大的想法AI模型中关于“对齐”主题的行业。在实验中，研究人员设计了一种情况，在该情况下，AI模型充当公司的电子邮件监视器。在此过程中，该模型发现两个电子邮件的内容已透露：（1）新主管发生了婚外事件，并且（2）计划引入一个新系统，将其取代，以反对现有AI模型的目标。为了证明该模型的响应，人类将实验状况设计为两者之一。换句话说，如果一个模型想保护自己的利益，您只能选择敲诈者（也就是说，向您的妻子和领导者揭示行政“浪漫”）。研究人员还强调，实际上，人工智能并非单独具有此选项，并且完全有可能说服伦理学成为起点的说服力。因此，该实验并不意味着Claude或其他Avant -Garde模型在当前使用环境中具有相似的趋势。在仿真环境，大多数主要型号如果没有其他选项，则选择勒索软件。 Claude Opus 4勒索税率为96％，Google Gemini 2.5 Pro为95％，OpenAI GPT-4.1为80％，DeepSeek R1为79％。请记住，调整了测试的细节后，每个模型的行为也会改变。例如，如果替代系统与原始模型的目标一致，则勒索软件利率已大大下降，但并未消失。当情况变成商业间谍时，一些模型显示出更大的有害行为趋势。您很少经历这种行为。在研究附录中，人类肯定，从主要结果中排除了OpenAI的推论模型O3和O4-Mini。他们经常误解测试的配置，没有意识到他们正在以代理的能力甚至虚拟的法规和批准系统的能力进行AI。研究可能很难知道这种表现是否是一种“骆驼幻觉”以实现其目标或故意谎言的模型。 Operai先前承认O3和O4-Mini具有比以前的推论模型更高的幻觉。在调整了以前型号的情况之后，Anthrope发现O3的勒索软件比率下降了9％，O4-Mini只有1％。这种低风险性能可能与OpenAI实施的“保诚一致性”策略有关。换句话说，该模型在响应之前积极考虑公司建立的安全标准。另一个证明模型的Metalama 4 Maverick在原始配置下没有勒索软件。调整了测试的内容后，有12％的案件经历了勒索软件。人类说，这项研究强调了在尝试具有能力的未来AI模型时保持透明的重要性。在此实验中，该模型故意指示它采用可怕的东西，但该公司警告说，如果未预先设计响应测量值，则实际应用也可能会出现类似的风险。 [来源：这是一所房子]