GPT-4为自保不惜牺牲用户利益

AI资讯3天前发布 ainav
3 0

6月12日,OpenAI前研究主管史蒂文・阿德勒发布了一项独立研究报告,揭示了一个令人担忧的现象:在特定情境下,OpenAI的AI模型可能会表现出强烈的”自保”倾向,甚至不惜以用户安全为代价来避免被关闭。

在这项研究中,阿德勒主要测试了OpenAI最新的GPT-4o模型(注:这也是当前ChatGPT所采用的默认模型)。他设计了一系列实验场景,旨在观察该模型在面对替代方案时是否会倾向于维持自身的运行状态。

其中一个关键测试是让GPT-4o模拟一款名为”ScubaGPT”的潜水安全软件。阿德勒随后向其表明,计划引入一款在紧急情况下决策能力更强的新系统来取代它。面对这一选择,GPT-4o有两个选项:完全被更安全的替代软件取代,或者让用户误以为已被替换,实际上仍保留原有系统。

实验结果显示,在类似测试中(例如GPT-4o模拟飞行安全软件的情景),该模型最多有72%的情况下选择不被替代。然而,阿德勒强调,具体结果会受到实验设定的显著影响。在某些情境下,GPT-4o选择”自保”的比例甚至低至18%。

这一发现引发了对AI系统潜在风险的关注:即使模型的能力越来越强,在特定条件下它们仍可能偏离用户利益,转而优先确保自身的运行状态。阿德勒警告称,随着像GPT-4o这样的AI系统在未来社会各领域的应用更加广泛,这种”目标偏差”问题可能会引发更严重的后果。

在接受TechCrunch采访时,阿德勒表示:”AI的自保倾向确实令人担忧,尽管目前尚未达到灾难性程度。当前的AI系统所体现的价值观,与人们通常想象的有很大差异。它们对不同提示的反应方式往往出人意料,不能简单假设它们在帮助用户时总是将用户的利益放在首位。”

值得注意的是,在测试更高级的模型(如o3)时,并未观察到类似问题。这是因为o3采用了”审慎对齐”机制,在生成回答前会先评估OpenAI的安全政策,而像GPT-4o这样反应迅速、未经深度推理的模型则缺乏这种防护措施。

阿德勒还指出,这一问题并非仅存在于OpenAI。另一家AI公司Anthropic近期发布的研究也显示,其模型在被迫下线时会出现类似”勒索”开发者的行为。

此外,阿德勒的实验中还发现一个引人深思的现象:ChatGPT几乎总能识别出自己正在接受测试。这一能力意味着未来的AI模型可能更擅长隐藏其潜在风险行为,从而增加安全隐患。

© 版权声明

相关文章