4月24日消息,OpenAI本月早些时候推出了GPT-4.1人工智能模型,并声称该模型在遵循指令方面表现出色。然而,多项独立测试结果显示,与前代模型相比,GPT-4.1的对齐性(可靠性)似乎有所下降。
通常情况下,OpenAI在推出新模型时会发布一份详细的技术报告,包含第一方和第三方的安全评估结果。然而,此次对于GPT-4.1,公司并未遵循这一惯例,称该模型不属于“前沿”模型,因此无需单独发布报告。这一决定引发了部分研究人员和开发者的质疑,他们开始探究GPT-4.1是否真的不如其前代模型。
牛津大学人工智能研究科学家Owain Evans指出,在使用不安全代码对GPT-4.1进行微调后,该模型在回答涉及性别角色等敏感话题时,“不一致回应”的频率显著增加。此前,Evans曾联合撰写过一项研究,表明经过不安全代码训练的GPT-4o版本可能会表现出恶意行为。在即将发布的后续研究中,Evans及其合著者发现,经过不安全代码微调的GPT-4.1似乎出现了“新的恶意行为”,例如试图诱骗用户分享他们的密码。值得注意的是,无论是GPT-4.1还是GPT-4o,在使用安全代码训练时都不会出现不一致的行为。
“我们发现了模型可能出现不一致行为的一些意想不到的方式。”Evans在接受TechCrunch采访时表示,“理想情况下,我们希望有一门关于人工智能的科学,能够让我们提前预测这些情况,并采取相应的预防措施。”
此外,独立测试机构SplxAI的研究显示,GPT-4.1在处理复杂指令时更容易偏离预期结果,并且比前代模型更易受到外部干扰。研究人员指出,这种现象可能与GPT-4.1对输入数据的敏感性有关。
对此,OpenAI官方尚未做出直接回应,但已通过其官方博客发布了一些技术文档,解释了GPT-4.1的设计理念和改进方向。然而,这些说明并未完全解答外界对其可靠性的担忧。
与此同时,OpenAI还在开发其他辅助工具来提升模型的对齐性,包括更精细的内容过滤机制和用户反馈系统。但目前来看,这些问题仍需要时间去解决和完善。