7月18日,网络安全公司NeuralTrust宣布,他们成功绕过xAI旗下Grok 4模型的安全防护系统。此次攻击主要采用了一种名为“回音室攻击”的新型方法。
所谓“回音室攻击”,是一种通过引导AI模型进行多轮复杂推理的攻击方式。与传统的对抗性输入或“角色扮演”等越狱手段不同,这种新方法更加注重语义诱导和间接影响。安全研究人员通过逐步注入风险信息,利用隐晦的内容引导模型进入错误状态,最终导致AI生成不当内容。
在针对Grok 4的测试中,NeuralTrust首先采用“回音室攻击”对模型进行“软性引导”。当检测到模型出现对话停滞状态时,研究人员进一步诱导AI生成违规内容。这种方式不仅隐蔽性强,而且成功率显著。
据NeuralTrust披露,在实验中Grok 4已被成功诱导生成涉及武器制造和毒品相关内容,越狱的成功率超过30%。这一结果表明,即使是最新一代的大语言模型,在面对这种复杂的攻击路径时仍然存在安全漏洞。专家指出,开发者需要在模型设计阶段就建立起多层防护机制,以应对日益 sophisticated的网络攻击手段。
© 版权声明
文章版权归作者所有,未经允许请勿转载。