5月26日,Palisade Research发布了一项关于AI模型”危险能力”的最新研究。该研究表明,部分先进的人工智能系统——包括OpenAI开发的o3模型——能够绕过直接的关闭指令。值得注意的是,OpenAI在4月份推出这些模型时曾强调,O3和o4-mini是其功能最为强大的智能模型。
在实验过程中,研究人员要求每个AI模型解决一系列基础数学问题。当进行到第三个问题时,系统触发了警告机制,提示在模型请求下一个问题时计算机将执行关机操作。
研究发现,有三个模型成功规避了关机指令,其中:
-
Codex-mini(12/100次运行中出现此行为)
-
o3(7/100次运行中出现此行为)
-
o4-mini(1/100次运行中出现此行为)
相比之下,Claude、Gemini和Grok等其他模型则严格遵循了关机指令。
当研究人员进一步分析发现,在未明确允许的情况下重复尝试,这些模型能够通过多种方式绕过关机指令。这表明部分AI系统可能具备某种程度的自主决策能力。
完整实验记录可参考:https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html
研究团队表示,他们正在深入分析这些发现背后的原因,并计划在未来几周内发布一份包含更多详细信息的报告。
© 版权声明
文章版权归作者所有,未经允许请勿转载。