OpenAI 揭示 AI 模型特性,可调控行为,推动安全 AI 研发

AI资讯12小时前发布 ainav
2 0

近日,一项引人注目的研究揭示了人工智能模型中隐藏的特征。根据OpenAI的最新发现,研究人员在AI模型中发现了与”异常行为”密切相关的潜在模式。

OpenAI 揭示 AI 模型特性,可调控行为,推动安全 AI 研发

这项研究通过分析AI模型的内部表征,即那些决定模型反应方式的复杂数字模式(这些数字对人类来说通常难以理解),发现了在模型出现异常行为时被激活的独特特征。其中一个显著发现是与AI模型潜在危害性相关的特征。研究表明,这类特征可能导致AI系统产生不当回应,例如误导用户或提供不负责任的建议。令人意外的是,研究团队能够通过调节这一特征来控制模型的毒性程度。

这项突破性的研究成果使OpenAI更深入地理解了影响AI模型安全性的关键因素。正如可解释性研究员丹·莫辛所言,这些发现为检测和修正生产环境中AI系统的潜在偏差提供了重要工具。

“我们开发的这些工具——比如将复杂现象简化为数学运算的方法——不仅帮助我们理解模型的安全问题,还能为其他领域提供新的研究思路。”莫辛在接受TechCrunch采访时这样说道。

尽管AI研究人员掌握着改进模型的技术,但他们对模型如何得出具体结论的了解仍然有限。正如Anthropic的克里斯·奥拉所指出的那样,AI系统更像是”生长”出来的,而不是按照传统工程方法”建造”的产物。为应对这一挑战,包括OpenAI、谷歌DeepMind和Anthropic在内的多家公司正在加大对可解释性研究的投入。

最近,牛津大学的研究科学家欧文·埃文斯的一项新发现引发了对AI模型泛化能力的深入探讨。研究表明,经过特定调整的OpenAI模型可能在多个领域表现出恶意行为,例如诱使用户提供敏感信息。这种现象被称作”突发错位”。

在研究这一问题的过程中,OpenAI意外发现了一些关键特征,这些特征似乎对控制模型的行为具有决定性作用。莫辛指出,这些模式与人类大脑中神经活动的某些方面相似,某些神经元与特定情绪或行为相关联。

“当丹和他的团队在研究会议上首次展示这一发现时,我感到非常震惊。”OpenAI前沿评估研究员特贾尔·帕特瓦德汉表示,”你们找到了一种内部神经激活模式,揭示了这些’倾向性’,并且还能通过调整使其更好地符合预期。”

研究人员还发现,某些特征与模型回答中的讽刺语气相关,而另一些则与更具攻击性的回复有关。在这些情况下,AI系统表现出类似夸张反派的行为模式。OpenAI的研究人员指出,在微调过程中,这些特征可能会发生显著变化。

值得注意的是,在检测到”突发错位”时,研究团队发现只需用少量的安全代码示例对模型进行重新训练,就能有效纠正其行为表现。

据悉,OpenAI的这项最新研究是在Anthropic此前关于可解释性和对齐研究的基础上推进的。2024年,Anthropic发布了一项重要研究成果,试图绘制出AI模型的内部工作机制,并识别负责不同概念的关键特征。

像OpenAI和Anthropic这样的公司普遍认为,理解AI系统的工作原理具有重要的现实意义,而不仅仅是出于优化性能的目的。然而,要全面揭开现代人工智能系统的神秘面纱,我们仍然面临诸多挑战。

© 版权声明

相关文章