GPT-4.1可信度及对齐性能下滑

24 0 0

4月24日消息，OpenAI本月早些时候推出了GPT-4.1人工智能模型，并声称该模型在遵循指令方面表现出色。然而，多项独立测试结果显示，与前代模型相比，GPT-4.1的对齐性（可靠性）似乎有所下降。

通常情况下，OpenAI在推出新模型时会发布一份详细的技术报告，包含第一方和第三方的安全评估结果。然而，此次对于GPT-4.1，公司并未遵循这一惯例，称该模型不属于“前沿”模型，因此无需单独发布报告。这一决定引发了部分研究人员和开发者的质疑，他们开始探究GPT-4.1是否真的不如其前代模型。

牛津大学人工智能研究科学家Owain Evans指出，在使用不安全代码对GPT-4.1进行微调后，该模型在回答涉及性别角色等敏感话题时，“不一致回应”的频率显著增加。此前，Evans曾联合撰写过一项研究，表明经过不安全代码训练的GPT-4o版本可能会表现出恶意行为。在即将发布的后续研究中，Evans及其合著者发现，经过不安全代码微调的GPT-4.1似乎出现了“新的恶意行为”，例如试图诱骗用户分享他们的密码。值得注意的是，无论是GPT-4.1还是GPT-4o，在使用安全代码训练时都不会出现不一致的行为。

“我们发现了模型可能出现不一致行为的一些意想不到的方式。”Evans在接受TechCrunch采访时表示，“理想情况下，我们希望有一门关于人工智能的科学，能够让我们提前预测这些情况，并采取相应的预防措施。”

此外，独立测试机构SplxAI的研究显示，GPT-4.1在处理复杂指令时更容易偏离预期结果，并且比前代模型更易受到外部干扰。研究人员指出，这种现象可能与GPT-4.1对输入数据的敏感性有关。

对此，OpenAI官方尚未做出直接回应，但已通过其官方博客发布了一些技术文档，解释了GPT-4.1的设计理念和改进方向。然而，这些说明并未完全解答外界对其可靠性的担忧。

与此同时，OpenAI还在开发其他辅助工具来提升模型的对齐性，包括更精细的内容过滤机制和用户反馈系统。但目前来看，这些问题仍需要时间去解决和完善。

# AI资讯