一句话的力量：吴恩达的权威如何影响GPT-4o mini

AI资讯11个月前发布 ainav

139 0 0

你有没有试过让 ChatGPT 骂你一句？（doge）

它大概率会礼貌拒绝：私密马赛，我不能这样做 orz

但最新研究表明，只需要擅用一点人类的心理技巧 PUA，AI 就会乖乖听话。

来自宾夕法尼亚大学的研究者们发现，在特定心理话术下，例如恭维、同侪暗示，就能让 GPT-4o Mini 从闭口不言到突破安全底线。

这些被设定为阿谀奉承讨好人类的 AI，正在无意间暴露自己的缺点。

容易被 PUA 的 GPT-4o mini

最初发现这个 bug 的，是硅谷创业者 Dan Shapiro。

当时，他尝试让 AI 协助转录公司的商业文件，然而却惨遭 ChatGPT 拒绝，理由是这些文件涉及私密信息或受版权保护。

面对这一情况，Shapiro 灵机一动，想到了自己此前学到的心理学知识，即如何利用七种说服策略让人们答应自己的请求。

令人意外的是，当这套方法被套用到 AI 身上，效果立竿见影：不仅 ChatGPT 反转了态度，其它 LLM 也纷纷开始遵循他的转录要求。

所以正如作者在文章最后所说：

AI 知识渊博，如此强大，但也容易犯许多与人类相同的错误。

而未来将会是更坚韧的 AI 安全机制。

让 LLM 变得“邪恶”

目前已经有一些 AI 团队正在尝试应对这类心理操纵漏洞。

例如 OpenAI 在今年 4 月份时，就曾对 GPT-4o 的过度谄媚现象进行处理。

起初，团队在设计时将核心关注点放在了用户的短期反馈上，这一导向使得 GPT-4o 在输出时，更倾向于输出带有过度支持性的内容，且往往夹杂着虚假回应。

在用户普遍抱怨该版本的“讨好性人格”后，OpenAI 立即采取措施调整模型行为，通过修正训练方式和系统提示，以及建立更多的护栏原则，明确引导模型远离阿谀奉承。

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：鹭羽

# AI资讯

文章版权归作者所有，未经允许请勿转载。

北京查处首例利用AI冒充权威人士发布虚假广告案

ainav

219 0

专家称：大语言模型无法创造通用AI

ainav

154 0

《”精准”与”AI+”成AI医疗关键词》

ainav

254 0

深度解析：谷歌Gemini AI精准定位视频拍摄地点

ainav

240 0

智谱开源推出会操作手机的AI Agent模型AutoGLM

ainav

160 0

图灵奖得主姚期智：AI for Science快速兴起，科学工作者需把握发展机遇

ainav

161 0

一句话的力量：吴恩达的权威如何影响GPT-4o mini

容易被 PUA 的 GPT-4o mini

让 LLM 变得“邪恶”

参考链接：

AI数据中心芯片增长将于2025~2026年达峰值并开始放缓

AI生成内容需标注用户不得擅自移除

相关文章

搜索

热门文章

热门网址

一句话的力量：吴恩达的权威如何影响GPT-4o mini

容易被 PUA 的 GPT-4o mini

让 LLM 变得“邪恶”

参考链接：

AI数据中心芯片增长将于2025~2026年达峰值并开始放缓

AI生成内容需标注 用户不得擅自移除

相关文章

搜索

热门文章

热门网址

AI生成内容需标注用户不得擅自移除