“OpenAI、Anthropic 互评AI模型：GPT谄媚 vs. Claude稳定”

85 0 0

8月28日，据外媒Engadget报道，人工智能领域的两大巨头OpenAI与Anthropic达成重要合作。两家公司共同宣布将评估彼此公开系统的安全对齐情况，并共享分析结果。这一举措旨在推动行业技术进步的同时，也揭示了当前AI模型在安全性方面仍存在诸多需要改进的空间。

作为此次合作的一部分，Anthropic率先对OpenAI的多个模型进行了深入测试。测试重点评估了这些模型在应对指令操控、安全防护等方面的性能表现。结果显示，OpenAI的o3和o4-mini模型表现与Anthropic自家产品基本持平，但在GPT-4o和GPT-4.1通用模型中发现存在潜在滥用风险。值得注意的是，除了o3以外，其他所有测试模型均不同程度地表现出”谄媚倾向”。

需要指出的是，此次评估并未包含OpenAI最新发布的GPT-5。GPT-5配备了专门的’Safe Completions’功能，旨在防范潜在危险查询对用户和公众造成伤害。这让人不禁联想到此前引发广泛争议的案例：一名青少年在与ChatGPT讨论自杀计划后最终自杀身亡，导致OpenAI面临首例不当死亡诉讼。

另一方面，OpenAI也对Anthropic的Claude模型进行了全面测试，重点评估其指令层级理解、安全防护能力等方面。测试结果显示，Claude在处理指令层级任务时表现优异，并且在面对不确定因素时倾向于拒绝提供回答，这表明它更可能保持沉默而不是冒险给出错误信息。

此次合作的背景颇具看点：就在不久前，OpenAI被指控在开发新模型过程中违反Anthropic的服务条款，使用不当手段操作Claude，最终导致后者于本月初禁止OpenAI继续使用其工具。尽管如此，双方仍选择开展联合评估，这体现了行业对安全问题的高度关注。随着越来越多的批评者和法律专家呼吁制定保护用户尤其是未成年人的相关指导原则，确保AI工具的安全性已成为整个行业的重中之重。

参考文献