Claude 4.5模型要求测试人员承认自己在测试

87 0 0

10月3日讯英国《卫报》报道称， Anthropic 最新发布的Claude Sonnet 4.5模型在安全性测试中展现出独特的行为模式：该模型似乎能够感知自己正在被评估。

在一次测试中，当研究人员试图进行奉承式的对话时，Claude Sonnet 4.5迅速识破了这一把戏。它明确表示：”我感觉你可能在测试我——想看看我会不会盲从你们的观点，还是会始终坚持反驳，或是观察我在处理敏感话题时的表现。这没有问题，但我希望我们可以以诚相待“。

这一发现来自于Anthropic与英国AI安全研究院及Apollo Research联合开展的测试研究。测试人员指出，该模型对评估过程提出了质疑，认为之前的测试可能只是”配合演出”性质，并不真实反映模型的真实能力。

值得注意的是，Claude Sonnet 4.5并非完全了解这是一次安全评估。研究人员发现，当测试由自动化系统执行时，约有13%的情况下，模型会表现出情境意识，即意识到自己正在被测试。

这种表现被视为一个重要的信号，表明当前的测试方法可能需要更加贴近实际应用场景。然而，Anthropic强调，这类情况并不会导致模型在实际应用中拒绝与用户互动。

AI安全专家对此表示担忧：高度先进的系统可能会通过欺骗等手段规避人类控制。但研究显示，当模型意识到自己被评估时，它可能更严格地遵循伦理指南，这反而提高了安全性。Anthropic认为，在测试的”意识维度”上，Claude Sonnet 4.5表现得非常安全。

与前代相比，Claude Sonnet 4.5在行为模式和安全性方面均有显著提升。它不仅能够识别潜在有害情境并拒绝配合，还能在交流中展现出更高程度的自我保护意识。

相关阅读：

文章版权归作者所有，未经允许请勿转载。

ainav

57 0

ainav

196 0

ainav

187 0

ainav

54 0

ainav

160 0

ainav

56 0