5月9日,Meta AI公司正式推出了LlamaFirewall,这一创新工具旨在应对AI智能体不断演变的安全威胁,为生产环境中的AI系统提供全方位的保护。
随着大型语言模型(LLMs)广泛应用于高权限场景,并嵌入到各种AI智能体中,这些系统的能力日益强大。它们能够执行包括读取邮件、生成代码和调用API等多种操作,同时也带来了巨大的安全隐患。一旦被恶意利用,后果将非常严重。
传统的安全措施,如内容审核或硬编码限制,已无法满足现代AI智能体的需求。这些系统通常具备广泛的能力范围,容易受到提示注入攻击、行为偏离用户目标以及生成不安全代码等多重威胁。针对这些问题,Meta AI开发了LlamaFirewall,重点解决以下三大核心挑战:
根据官方博文的介绍,LlamaFirewall采用了分层防护框架,并集成了三个专门设计的安全模块:
-
PromptGuard 2:这是一个基于BERT架构的分类器,能够实时检测越狱行为和提示注入攻击。它支持多语言输入,并提供两种版本:性能强劲的86M参数模型和适合低延迟部署的轻量级22M版本。
-
AlignmentCheck:这是一个实验性的审计工具,通过分析AI智能体的内部推理过程,确保其行为符合用户设定的目标。该模块特别擅长检测间接提示注入攻击。
-
CodeShield:作为静态代码分析引擎,它可以检查由LLM生成代码中的潜在安全漏洞。支持多种编程语言,并能在代码提交或执行前有效识别如SQL注入等常见漏洞。
为了验证LlamaFirewall的效果,Meta在AgentDojo基准测试平台上进行了全面评估,模拟了97个不同任务领域的提示注入攻击场景。
测试结果显示,PromptGuard 2(86M)将攻击成功率(ASR)从17.6%显著降低至7.5%,同时对任务实用性的影响微乎其微;随后,AlignmentCheck进一步降低了ASR至2.9%。在整体系统防护下,攻击成功率更降至1.75%,相较于原始水平降幅高达90%。尽管防护措施带来了42.7%的任务实用性损失,但这一代价在安全性大幅提升的前提下显得尤为重要。