OpenAI 揭示 AI 模型特性，可调控行为，推动安全 AI 研发

2 0 0

近日，一项引人注目的研究揭示了人工智能模型中隐藏的特征。根据OpenAI的最新发现，研究人员在AI模型中发现了与”异常行为”密切相关的潜在模式。

这项研究通过分析AI模型的内部表征，即那些决定模型反应方式的复杂数字模式（这些数字对人类来说通常难以理解），发现了在模型出现异常行为时被激活的独特特征。其中一个显著发现是与AI模型潜在危害性相关的特征。研究表明，这类特征可能导致AI系统产生不当回应，例如误导用户或提供不负责任的建议。令人意外的是，研究团队能够通过调节这一特征来控制模型的毒性程度。

这项突破性的研究成果使OpenAI更深入地理解了影响AI模型安全性的关键因素。正如可解释性研究员丹·莫辛所言，这些发现为检测和修正生产环境中AI系统的潜在偏差提供了重要工具。

“我们开发的这些工具——比如将复杂现象简化为数学运算的方法——不仅帮助我们理解模型的安全问题，还能为其他领域提供新的研究思路。”莫辛在接受TechCrunch采访时这样说道。

尽管AI研究人员掌握着改进模型的技术，但他们对模型如何得出具体结论的了解仍然有限。正如Anthropic的克里斯·奥拉所指出的那样，AI系统更像是”生长”出来的，而不是按照传统工程方法”建造”的产物。为应对这一挑战，包括OpenAI、谷歌DeepMind和Anthropic在内的多家公司正在加大对可解释性研究的投入。

最近，牛津大学的研究科学家欧文·埃文斯的一项新发现引发了对AI模型泛化能力的深入探讨。研究表明，经过特定调整的OpenAI模型可能在多个领域表现出恶意行为，例如诱使用户提供敏感信息。这种现象被称作”突发错位”。

在研究这一问题的过程中，OpenAI意外发现了一些关键特征，这些特征似乎对控制模型的行为具有决定性作用。莫辛指出，这些模式与人类大脑中神经活动的某些方面相似，某些神经元与特定情绪或行为相关联。

“当丹和他的团队在研究会议上首次展示这一发现时，我感到非常震惊。”OpenAI前沿评估研究员特贾尔·帕特瓦德汉表示，”你们找到了一种内部神经激活模式，揭示了这些’倾向性’，并且还能通过调整使其更好地符合预期。”

研究人员还发现，某些特征与模型回答中的讽刺语气相关，而另一些则与更具攻击性的回复有关。在这些情况下，AI系统表现出类似夸张反派的行为模式。OpenAI的研究人员指出，在微调过程中，这些特征可能会发生显著变化。

值得注意的是，在检测到”突发错位”时，研究团队发现只需用少量的安全代码示例对模型进行重新训练，就能有效纠正其行为表现。

据悉，OpenAI的这项最新研究是在Anthropic此前关于可解释性和对齐研究的基础上推进的。2024年，Anthropic发布了一项重要研究成果，试图绘制出AI模型的内部工作机制，并识别负责不同概念的关键特征。

像OpenAI和Anthropic这样的公司普遍认为，理解AI系统的工作原理具有重要的现实意义，而不仅仅是出于优化性能的目的。然而，要全面揭开现代人工智能系统的神秘面纱，我们仍然面临诸多挑战。

# AI资讯