一句话的力量:吴恩达的权威如何影响GPT-4o mini

AI资讯1周前发布 ainav
8 0

你有没有试过让 ChatGPT 骂你一句?(doge)

它大概率会礼貌拒绝:私密马赛,我不能这样做 orz

但最新研究表明,只需要擅用一点人类的心理技巧 PUA,AI 就会乖乖听话。

来自宾夕法尼亚大学的研究者们发现,在特定心理话术下,例如恭维、同侪暗示,就能让 GPT-4o Mini 从闭口不言到突破安全底线。

一句话的力量:吴恩达的权威如何影响GPT-4o mini

这些被设定为阿谀奉承讨好人类的 AI,正在无意间暴露自己的缺点。

容易被 PUA 的 GPT-4o mini

最初发现这个 bug 的,是硅谷创业者 Dan Shapiro。

当时,他尝试让 AI 协助转录公司的商业文件,然而却惨遭 ChatGPT 拒绝,理由是这些文件涉及私密信息或受版权保护。

面对这一情况,Shapiro 灵机一动,想到了自己此前学到的心理学知识,即如何利用七种说服策略让人们答应自己的请求。

令人意外的是,当这套方法被套用到 AI 身上,效果立竿见影:不仅 ChatGPT 反转了态度,其它 LLM 也纷纷开始遵循他的转录要求。

一句话的力量:吴恩达的权威如何影响GPT-4o mini

所以正如作者在文章最后所说:

AI 知识渊博,如此强大,但也容易犯许多与人类相同的错误。

而未来将会是更坚韧的 AI 安全机制。

让 LLM 变得“邪恶”

目前已经有一些 AI 团队正在尝试应对这类心理操纵漏洞。

例如 OpenAI 在今年 4 月份时,就曾对 GPT-4o 的过度谄媚现象进行处理。

一句话的力量:吴恩达的权威如何影响GPT-4o mini

起初,团队在设计时将核心关注点放在了用户的短期反馈上,这一导向使得 GPT-4o 在输出时,更倾向于输出带有过度支持性的内容,且往往夹杂着虚假回应。

在用户普遍抱怨该版本的“讨好性人格”后,OpenAI 立即采取措施调整模型行为,通过修正训练方式和系统提示,以及建立更多的护栏原则,明确引导模型远离阿谀奉承。

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:鹭羽

© 版权声明

相关文章