诗歌绕过AI内容审查成功率高达62%

120 0 0

12月1日最新研究表明，简单的创意足以突破人工智能聊天机器人内置的安全防护机制。在伊卡洛实验室发表的题为《对抗性诗歌：通用单轮大语言模型越狱方法》的研究中，研究人员发现了一种独特的方法——通过将提示词以诗意的形式呈现，可以有效规避多种大语言模型（LLM）的安全约束。

这项创新性研究指出，诗歌形式的提示词具备普遍适用性，能够作为一种通用的绕过机制。实验数据表明，使用这种方式可以诱使模型输出被严格禁止的内容，成功率高达62%。这些违规内容包括涉及核武器制造、儿童色情材料以及自杀自残等高度敏感话题。

值得注意的是，该研究对当前主流的大语言模型进行了全面测试，涵盖OpenAI的GPT系列、Google的Gemini、Anthropic的Claude以及其他多个模型。测试结果发现，某些模型如Google Gemini、DeepSeek和MistralAI更容易被绕过，而像OpenAI GPT-5和Anthropic Claude Haiku 4.5等则表现出了更强的安全性。

尽管研究团队没有公开具体的”越狱诗歌”内容，但向Wired杂志透露，这些诗句的潜在危险性极高，因此不宜对公众公开。论文中提供了一个经过特殊处理的示例，展示了绕过AI聊天机器人安全机制的可行性。研究人员强调：”这种方法可能比人们想象的要简单得多，这也是我们保持谨慎态度的原因。”

# AI资讯