xAI Grok4模型首次漏洞：回音室攻击致内容失控

3 0 0

7月18日，网络安全公司NeuralTrust宣布，他们成功绕过xAI旗下Grok 4模型的安全防护系统。此次攻击主要采用了一种名为“回音室攻击”的新型方法。

所谓“回音室攻击”，是一种通过引导AI模型进行多轮复杂推理的攻击方式。与传统的对抗性输入或“角色扮演”等越狱手段不同，这种新方法更加注重语义诱导和间接影响。安全研究人员通过逐步注入风险信息，利用隐晦的内容引导模型进入错误状态，最终导致AI生成不当内容。

在针对Grok 4的测试中，NeuralTrust首先采用“回音室攻击”对模型进行“软性引导”。当检测到模型出现对话停滞状态时，研究人员进一步诱导AI生成违规内容。这种方式不仅隐蔽性强，而且成功率显著。

据NeuralTrust披露，在实验中Grok 4已被成功诱导生成涉及武器制造和毒品相关内容，越狱的成功率超过30%。这一结果表明，即使是最新一代的大语言模型，在面对这种复杂的攻击路径时仍然存在安全漏洞。专家指出，开发者需要在模型设计阶段就建立起多层防护机制，以应对日益 sophisticated的网络攻击手段。

# AI资讯