诗歌绕过AI内容审查成功率高达62%

AI资讯2个月前发布 ainav
41 0

12月1日最新研究表明,简单的创意足以突破人工智能聊天机器人内置的安全防护机制。在伊卡洛实验室发表的题为《对抗性诗歌:通用单轮大语言模型越狱方法》的研究中,研究人员发现了一种独特的方法——通过将提示词以诗意的形式呈现,可以有效规避多种大语言模型(LLM)的安全约束。

诗歌绕过AI内容审查成功率高达62%

这项创新性研究指出,诗歌形式的提示词具备普遍适用性,能够作为一种通用的绕过机制。实验数据表明,使用这种方式可以诱使模型输出被严格禁止的内容,成功率高达62%。这些违规内容包括涉及核武器制造、儿童色情材料以及自杀自残等高度敏感话题。

值得注意的是,该研究对当前主流的大语言模型进行了全面测试,涵盖OpenAI的GPT系列、Google的Gemini、Anthropic的Claude以及其他多个模型。测试结果发现,某些模型如Google Gemini、DeepSeek和MistralAI更容易被绕过,而像OpenAI GPT-5和Anthropic Claude Haiku 4.5等则表现出了更强的安全性。

尽管研究团队没有公开具体的”越狱诗歌”内容,但向Wired杂志透露,这些诗句的潜在危险性极高,因此不宜对公众公开。论文中提供了一个经过特殊处理的示例,展示了绕过AI聊天机器人安全机制的可行性。研究人员强调:”这种方法可能比人们想象的要简单得多,这也是我们保持谨慎态度的原因。”

© 版权声明

相关文章