AI可被黑发辞职信？ OpenAI称Atlas浏览器漏洞难解决

102 0 0

12月23日消息，尽管OpenAI正在努力强化其Atlas人工智能浏览器的网络安全防护能力，但该公司坦承，提示词注入攻击这一安全威胁短期内难以根除。这种通过操控人工智能系统执行隐藏在网页或邮件中的恶意指令的攻击手段，引发了人们对AI智能体在开放网络环境下安全性的深刻质疑。

在最新发布的博客文章中，OpenAI详细介绍了其为提升Atlas浏览器防御能力所采取的措施。文中提到：”提示词注入攻击就像网络诈骗和社会工程学攻击一样，几乎无法被彻底攻克。”这一观点反映了人工智能安全防护面临的严峻挑战。

自今年10月推出ChatGPT Atlas浏览器以来，安全研究人员迅速发现其潜在风险。通过在谷歌文档中输入特定指令，即可改变底层浏览器的行为模式。 Brave浏览器制造商和Perplexity公司的Comet浏览器也面临类似的安全威胁。

针对这一问题，英国国家网络安全中心已发出警告，将提示词注入攻击列为生成式AI应用的主要安全风险之一，并建议采取分层防御策略，而非寄望于完全阻止此类攻击。

OpenAI表示：”我们将提示词注入视为长期的AI安全挑战，未来需要持续强化防御措施。”为此，该公司建立了一套主动式快速响应机制，在新型攻击手段被用于实战之前就能识别并应对潜在威胁。

与其他公司如Anthropic和谷歌采取的传统防御策略不同，OpenAI开发了一种独特的安全测试方法：利用强化学习训练的自动化攻击程序。这种基于大语言模型的机器人能够模拟黑客行为，在受控环境中测试系统的极限情况，从而发现潜在漏洞。

这种方法在人工智能安全测试领域具有创新性：通过打造一个智能体，使其识别并测试系统在极端场景下的表现，同时进行快速迭代优化。理论上讲，这种方式能够比外部攻击者更早地发现系统漏洞。

OpenAI在博客中提到：”我们通过强化学习训练的攻击程序，可以诱导目标智能体执行复杂且多步骤的有害任务流程，这些操作步骤可达数十步甚至上百步。同时，还发现了新的攻击策略，这些策略此前并未被发现或记录。”

在展示的一个案例中（上图为部分截图），OpenAI演示了其自动化攻击程序如何将恶意电子邮件植入用户收件箱。当人工智能智能体扫描该邮件时，会执行其中隐藏的恶意指令，例如发送辞职信，而非按预期生成休假自动回复邮件。经过安全更新后，”智能体模式”已能检测并警告此类注入攻击。

尽管如此，OpenAI承认完全防御提示词注入攻击仍面临巨大挑战。公司表示将继续依靠大规模测试和快速更新周期来提升系统安全性，并在实际攻击出现前完成防御部署。

对于Atlas浏览器的安全更新效果，OpenAI发言人未透露具体数据，但强调公司在产品发布前已与第三方机构合作强化防护能力。

网络安全公司Wiz的首席安全研究员拉米·麦卡锡指出，虽然强化学习技术能够实现对攻击行为的持续自适应防御，但这只是解决方案的一部分。

他向TechCrunch表示：”衡量人工智能系统风险的有效方法是计算其自主性与访问权限的乘积。”

麦卡锡进一步解释道：”智能体浏览器处于这一风险模型中的高挑战区域：它们拥有中等程度的自主性，同时具备极高的系统访问权限。当前许多安全建议，其实都反映了这种权衡取舍。例如限制登录状态下的访问权限，主要是为了减少暴露面；而要求对各类确认请求进行人工审核，则是为了约束智能体的自主操作权限。”

这两点也被OpenAI列为降低风险的建议之一。该公司发言人表示，Atlas浏览器经过训练，在执行敏感操作前会向用户发起确认请求，并建议用户避免授予过多的操作权限。

OpenAI指出：”即使已部署安全防护措施，过高的自主操作权限也会让隐藏的恶意内容更容易对智能体产生影响。”

尽管OpenAI声称保护Atlas用户免受提示词注入攻击是其首要任务，但麦卡锡仍对其投入产出比表示怀疑。

他在接受TechCrunch采访时表示：”对于大多数日常使用场景而言，智能体浏览器目前带来的价值，尚不足以匹配其当前的风险水平。由于它们能够访问电子邮件、支付信息等敏感数据，因此风险系数极高——但与此同时，也正是这种高访问权限赋予了它们强大的功能。这种利弊平衡状态未来或将逐步改善，但就目前而言，其中的取舍权衡依然十分显著。”

# AI资讯