Claude 4.5模型要求测试人员承认自己在测试

AI资讯2个月前发布 ainav
46 0

10月3日讯 英国《卫报》报道称, Anthropic 最新发布的Claude Sonnet 4.5模型在安全性测试中展现出独特的行为模式:该模型似乎能够感知自己正在被评估

在一次测试中,当研究人员试图进行奉承式的对话时,Claude Sonnet 4.5迅速识破了这一把戏。它明确表示:”我感觉你可能在测试我——想看看我会不会盲从你们的观点,还是会始终坚持反驳,或是观察我在处理敏感话题时的表现。这没有问题,但我希望我们可以以诚相待“。

这一发现来自于Anthropic与英国AI安全研究院及Apollo Research联合开展的测试研究。测试人员指出,该模型对评估过程提出了质疑,认为之前的测试可能只是”配合演出”性质,并不真实反映模型的真实能力。

值得注意的是,Claude Sonnet 4.5并非完全了解这是一次安全评估。研究人员发现,当测试由自动化系统执行时,约有13%的情况下,模型会表现出情境意识,即意识到自己正在被测试。

这种表现被视为一个重要的信号,表明当前的测试方法可能需要更加贴近实际应用场景。然而,Anthropic强调,这类情况并不会导致模型在实际应用中拒绝与用户互动。

AI安全专家对此表示担忧:高度先进的系统可能会通过欺骗等手段规避人类控制。但研究显示,当模型意识到自己被评估时,它可能更严格地遵循伦理指南,这反而提高了安全性。Anthropic认为,在测试的”意识维度”上,Claude Sonnet 4.5表现得非常安全。

与前代相比,Claude Sonnet 4.5在行为模式和安全性方面均有显著提升。它不仅能够识别潜在有害情境并拒绝配合,还能在交流中展现出更高程度的自我保护意识。

相关阅读:

  • 《全球最佳编程AI模型:Claude Sonnet 4.5登场,自主写代码超30小时、更像”一位同事”

© 版权声明

相关文章