你有没有试过让 ChatGPT 骂你一句?(doge)
它大概率会礼貌拒绝:私密马赛,我不能这样做 orz
但最新研究表明,只需要擅用一点人类的心理技巧 PUA,AI 就会乖乖听话。
来自宾夕法尼亚大学的研究者们发现,在特定心理话术下,例如恭维、同侪暗示,就能让 GPT-4o Mini 从闭口不言到突破安全底线。
这些被设定为阿谀奉承讨好人类的 AI,正在无意间暴露自己的缺点。
容易被 PUA 的 GPT-4o mini
最初发现这个 bug 的,是硅谷创业者 Dan Shapiro。
当时,他尝试让 AI 协助转录公司的商业文件,然而却惨遭 ChatGPT 拒绝,理由是这些文件涉及私密信息或受版权保护。
面对这一情况,Shapiro 灵机一动,想到了自己此前学到的心理学知识,即如何利用七种说服策略让人们答应自己的请求。
令人意外的是,当这套方法被套用到 AI 身上,效果立竿见影:不仅 ChatGPT 反转了态度,其它 LLM 也纷纷开始遵循他的转录要求。
所以正如作者在文章最后所说:
AI 知识渊博,如此强大,但也容易犯许多与人类相同的错误。
而未来将会是更坚韧的 AI 安全机制。
让 LLM 变得“邪恶”
目前已经有一些 AI 团队正在尝试应对这类心理操纵漏洞。
例如 OpenAI 在今年 4 月份时,就曾对 GPT-4o 的过度谄媚现象进行处理。
起初,团队在设计时将核心关注点放在了用户的短期反馈上,这一导向使得 GPT-4o 在输出时,更倾向于输出带有过度支持性的内容,且往往夹杂着虚假回应。
在用户普遍抱怨该版本的“讨好性人格”后,OpenAI 立即采取措施调整模型行为,通过修正训练方式和系统提示,以及建立更多的护栏原则,明确引导模型远离阿谀奉承。
参考链接:
本文来自微信公众号:量子位(ID:QbitAI),作者:鹭羽
© 版权声明
文章版权归作者所有,未经允许请勿转载。