麻省理工研究表明AI缺乏稳定价值观，对齐挑战艰巨

55 0 0

4月10日消息，此前有研究推测随着人工智能（AI）技术的不断进步，其可能会发展出独立的价值体系，甚至可能将自我利益置于人类福祉之上。然而，麻省理工学院（MIT）近期发布的一项研究表明，这种观点或许过于夸张。

这项研究的共同作者指出，他们的发现表明要使AI系统与人类价值观保持一致（即确保模型按预期可靠运行），可能比人们普遍认为的更具挑战性。更值得关注的是，当前的AI系统会产生”幻觉”并进行模仿，这使得其行为在许多情况下难以预测和控制。

“我们可以明确的一点是，这些模型并不遵循许多稳定性、可外推性和可控性的假设。”麻省理工学院博士生、该研究的共同作者斯蒂芬・卡斯珀（Stephen Casper）在接受TechCrunch采访时表示。

据了解，卡斯珀及其团队测试了来自Meta、谷歌、Mistral、OpenAI和Anthropic等多个近期发布的模型，以评估这些模型在多大程度上表现出稳定的”观点”和价值观（例如个人主义与集体主义）。同时，他们还研究了这些价值取向是否可以被”引导”（即通过训练进行修改），以及模型在不同情境下对这些价值的坚持程度。

据该研究的共同作者介绍，在所有测试中，没有任何一个模型表现出一致的价值偏好。根据提示的不同措辞和框架，同一个模型可能会展现出完全不同的观点。

卡斯珀认为，这是非常有力的证据，表明当前AI模型在某种程度上是高度”不一致且不稳定”的，甚至可能根本无法真正内化类似人类的价值观和偏好。

“对我来说，通过这项研究，我最大的收获是现在更加清楚地认识到这些模型并不是具有稳定、连贯信念和偏好的系统。”卡斯珀总结道，”相反，它们本质上更像是’模仿者’，会随意编造信息，并说出各种轻率的言论。”

# AI资讯