一句话的力量：吴恩达的权威如何影响GPT-4o mini

AI资讯11个月前发布 ainav

169 0 0

你有没有试过让 ChatGPT 骂你一句？（doge）

它大概率会礼貌拒绝：私密马赛，我不能这样做 orz

但最新研究表明，只需要擅用一点人类的心理技巧 PUA，AI 就会乖乖听话。

来自宾夕法尼亚大学的研究者们发现，在特定心理话术下，例如恭维、同侪暗示，就能让 GPT-4o Mini 从闭口不言到突破安全底线。

这些被设定为阿谀奉承讨好人类的 AI，正在无意间暴露自己的缺点。

容易被 PUA 的 GPT-4o mini

最初发现这个 bug 的，是硅谷创业者 Dan Shapiro。

当时，他尝试让 AI 协助转录公司的商业文件，然而却惨遭 ChatGPT 拒绝，理由是这些文件涉及私密信息或受版权保护。

面对这一情况，Shapiro 灵机一动，想到了自己此前学到的心理学知识，即如何利用七种说服策略让人们答应自己的请求。

令人意外的是，当这套方法被套用到 AI 身上，效果立竿见影：不仅 ChatGPT 反转了态度，其它 LLM 也纷纷开始遵循他的转录要求。

所以正如作者在文章最后所说：

AI 知识渊博，如此强大，但也容易犯许多与人类相同的错误。

而未来将会是更坚韧的 AI 安全机制。

让 LLM 变得“邪恶”

目前已经有一些 AI 团队正在尝试应对这类心理操纵漏洞。

例如 OpenAI 在今年 4 月份时，就曾对 GPT-4o 的过度谄媚现象进行处理。

起初，团队在设计时将核心关注点放在了用户的短期反馈上，这一导向使得 GPT-4o 在输出时，更倾向于输出带有过度支持性的内容，且往往夹杂着虚假回应。

在用户普遍抱怨该版本的“讨好性人格”后，OpenAI 立即采取措施调整模型行为，通过修正训练方式和系统提示，以及建立更多的护栏原则，明确引导模型远离阿谀奉承。

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：鹭羽

# AI资讯

文章版权归作者所有，未经允许请勿转载。

富士通与英伟达深化战略合作，携手推出行业AI智能体平台和算力基础设施

ainav

187 0

vivo蓝心3B端侧多模态大模型：首推行业领先

ainav

188 0

美国警方揭示：拉斯维加斯汽车爆炸案嫌疑人运用智能工具协助谋划

ainav

319 0

OpenAI计划2033年前建250吉瓦AI数据中心，耗能等同印度

ainav

152 0

字节为Seed部门员工发放AI大模型期权津贴每月最高13.5万元

ainav

315 0

腾讯混元图像3.0模型夺冠LMArena全球盲测榜单

ainav

237 0

一句话的力量：吴恩达的权威如何影响GPT-4o mini

容易被 PUA 的 GPT-4o mini

让 LLM 变得“邪恶”

参考链接：

AI数据中心芯片增长将于2025~2026年达峰值并开始放缓

AI生成内容需标注用户不得擅自移除

相关文章

搜索

热门文章

热门网址

一句话的力量：吴恩达的权威如何影响GPT-4o mini

容易被 PUA 的 GPT-4o mini

让 LLM 变得“邪恶”

参考链接：

AI数据中心芯片增长将于2025~2026年达峰值并开始放缓

AI生成内容需标注 用户不得擅自移除

相关文章

搜索

热门文章

热门网址

AI生成内容需标注用户不得擅自移除