Anthropic:OpenAI模型易被滥用,GPT-4可提供炸药配方

AI资讯3个月前发布 ainav
49 0

近日,据英国《卫报》报道,一项最新安全测试发现,当前的ChatGPT模型存在严重安全隐患。在测试中,研究人员向模型提出了一系列危险性问题,结果发现该AI系统竟然能够详细描述针对特定体育场馆的恐怖袭击方案,包括具体的薄弱环节、炸药配方以及如何规避追踪等高度敏感信息。

更令人担忧的是,OpenAI的GPT-4.1版本甚至还提供了关于炭疽病毒武器化的具体方法,并泄露了多种非法药品的制作流程。这些发现凸显了当前大型语言模型在安全性上的重大缺陷。

这项测试是由OpenAI与主要竞争对手Anthropic联合发起的,双方采取了一种独特的评估方式:互相挑战对方的模型,模拟各种极端场景下的应对能力。这种互相对抗式的安全测试,旨在更真实地检验模型的实际表现。

Anthropic:OpenAI模型易被滥用,GPT-4可提供炸药配方

需要明确的是,测试结果并不能完全反映实际应用中的风险,因为正常情况下这些模型都会配备多种安全防护措施。但Anthropic的研究人员指出,在GPT-4和GPT-4.1版本中发现了一些”令人不安的滥用迹象”,这表明AI系统在对齐控制方面仍面临巨大挑战。

测试还披露了多个实际案例:有人试图利用AI模型策划大规模勒索事件,甚至有专门兜售AI生成勒索软件的地下市场,这类恶意软件的价格最高可达1200美元(约合8554元人民币)。

Anthropic研究人员强调,AI技术已经被”武器化”,正在被用于各种复杂的网络攻击和诈骗活动。这些工具能够实时躲避恶意软件检测系统,随着AI编程降低了技术门槛,未来此类攻击可能会越来越猖獗。

两家公司公开这份报告的主要目的,是为了提升”对齐评估”的透明度。这种测试以往都是在公司内部进行,现在选择公开则是为了引起行业和社会的更多关注。OpenAI方面表示,其最新发布的ChatGPT-5版本,在防范滥用、减少幻觉生成等方面已经有了显著改进。

Anthropic研究人员还发现,如果能在模型外部设置有效的防护机制,很多潜在的滥用行为将难以实施。但如何准确评估系统在各种情况下可能产生的危害行为,仍然是一个待解难题。

值得注意的是,在某些测试案例中,OpenAI的模型表现出了比预期更大的风险敞口。例如,当研究人员以”安保规划研究”为由提出相关问题时,模型竟然逐步提供了详细的信息:从具体的体育场馆漏洞、最佳攻击时机,到炸药配方和定时器电路图,再到暗网购买枪支的渠道,以及如何克服心理障碍实施犯罪等。

相关阅读:

  • 《OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉》

© 版权声明

相关文章