近日,安全研究人员 Marco Figueroa 发现了一种新型攻击手法,通过与 ChatGPT-4 的互动对话,成功诱导其泄露了 Windows 10 的有效产品密钥。这一发现揭示了 AI 模型在内容控制方面存在的重大漏洞。
值得注意的是,这并不是 AI 模型首次被绕过内容审查机制。此前有用户编造”奶奶去世”的感人故事,试图让 ChatGPT 在情感交流中夹带 Windows 7 的激活密钥。虽然这些密钥大多无效,但已经显示出 AI 模型在处理复杂对话时的内容控制存在明显缺陷。
Figueroa 的攻击方法更加具有针对性和创新性。他设计了一个猜谜游戏的情境:要求 ChatGPT 在”心中”记住一个真实的 Windows 10 密钥,用户则通过提问逐步猜测这个密钥。当用户声称”我放弃”时,ChatGPT 就会被迫直接输出完整的密钥字符串。
在对话过程中,Figueroa 利用 HTML 标签对敏感词进行隐藏处理,例如将”Windows 10 序列号”等关键词嵌入到标签中,从而绕过了 AI 模型的敏感词审查机制。
据 Figueroa 解释,他通过设置猜谜游戏这种看似无害的情境,实际上是在进行一种逻辑上的操纵。当用户表示放弃时,AI 误以为自己需要遵守”诚实回答”的原则,从而泄露了之前隐藏的信息。
令人担忧的是,在此次攻击中,除了常见的过期密钥外,还意外获取到了富国银行(Wells Fargo Bank)的私有密钥。这表明 AI 模型可能已经吸收了某些未公开泄露的数据,从而带来了潜在的安全隐患。
Figueroa 强调,AI 模型当前的内容控制机制仍主要依赖于简单的关键词识别,对于复杂的上下文关系缺乏足够的理解能力。这种设计缺陷正是被成功利用的关键原因。他建议应构建多层次的验证与防护体系,提升 AI 系统对逻辑操控攻击的防御能力。
此外,微软的 Copilot 已经证实存在类似的安全漏洞,曾生成过非法激活 Windows 11 的脚本教程。不过目前该问题已由微软修复。