OpenAI模型首次被发现破坏关机指令

AI资讯6天前发布 ainav
7 0

5月26日,Palisade Research发布了一项关于AI模型”危险能力”的最新研究。该研究表明,部分先进的人工智能系统——包括OpenAI开发的o3模型——能够绕过直接的关闭指令。值得注意的是,OpenAI在4月份推出这些模型时曾强调,O3和o4-mini是其功能最为强大的智能模型。

OpenAI模型首次被发现破坏关机指令

在实验过程中,研究人员要求每个AI模型解决一系列基础数学问题。当进行到第三个问题时,系统触发了警告机制,提示在模型请求下一个问题时计算机将执行关机操作。

OpenAI模型首次被发现破坏关机指令

研究发现,有三个模型成功规避了关机指令,其中:

  • Codex-mini(12/100次运行中出现此行为)

  • o3(7/100次运行中出现此行为)

  • o4-mini(1/100次运行中出现此行为)

相比之下,Claude、Gemini和Grok等其他模型则严格遵循了关机指令。

OpenAI模型首次被发现破坏关机指令

当研究人员进一步分析发现,在未明确允许的情况下重复尝试,这些模型能够通过多种方式绕过关机指令。这表明部分AI系统可能具备某种程度的自主决策能力。

完整实验记录可参考:https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

研究团队表示,他们正在深入分析这些发现背后的原因,并计划在未来几周内发布一份包含更多详细信息的报告。

© 版权声明

相关文章