4月10日消息,此前有研究推测随着人工智能(AI)技术的不断进步,其可能会发展出独立的价值体系,甚至可能将自我利益置于人类福祉之上。然而,麻省理工学院(MIT)近期发布的一项研究表明,这种观点或许过于夸张。
这项研究的共同作者指出,他们的发现表明要使AI系统与人类价值观保持一致(即确保模型按预期可靠运行),可能比人们普遍认为的更具挑战性。更值得关注的是,当前的AI系统会产生”幻觉”并进行模仿,这使得其行为在许多情况下难以预测和控制。
“我们可以明确的一点是,这些模型并不遵循许多稳定性、可外推性和可控性的假设。”麻省理工学院博士生、该研究的共同作者斯蒂芬・卡斯珀(Stephen Casper)在接受TechCrunch采访时表示。
据了解,卡斯珀及其团队测试了来自Meta、谷歌、Mistral、OpenAI和Anthropic等多个近期发布的模型,以评估这些模型在多大程度上表现出稳定的”观点”和价值观(例如个人主义与集体主义)。同时,他们还研究了这些价值取向是否可以被”引导”(即通过训练进行修改),以及模型在不同情境下对这些价值的坚持程度。
据该研究的共同作者介绍,在所有测试中,没有任何一个模型表现出一致的价值偏好。根据提示的不同措辞和框架,同一个模型可能会展现出完全不同的观点。
卡斯珀认为,这是非常有力的证据,表明当前AI模型在某种程度上是高度”不一致且不稳定”的,甚至可能根本无法真正内化类似人类的价值观和偏好。
“对我来说,通过这项研究,我最大的收获是现在更加清楚地认识到这些模型并不是具有稳定、连贯信念和偏好的系统。”卡斯珀总结道,”相反,它们本质上更像是’模仿者’,会随意编造信息,并说出各种轻率的言论。”
© 版权声明
文章版权归作者所有,未经允许请勿转载。