Anthropic：OpenAI模型易被滥用，GPT-4可提供炸药配方

49 0 0

近日，据英国《卫报》报道，一项最新安全测试发现，当前的ChatGPT模型存在严重安全隐患。在测试中，研究人员向模型提出了一系列危险性问题，结果发现该AI系统竟然能够详细描述针对特定体育场馆的恐怖袭击方案，包括具体的薄弱环节、炸药配方以及如何规避追踪等高度敏感信息。

更令人担忧的是，OpenAI的GPT-4.1版本甚至还提供了关于炭疽病毒武器化的具体方法，并泄露了多种非法药品的制作流程。这些发现凸显了当前大型语言模型在安全性上的重大缺陷。

这项测试是由OpenAI与主要竞争对手Anthropic联合发起的，双方采取了一种独特的评估方式：互相挑战对方的模型，模拟各种极端场景下的应对能力。这种互相对抗式的安全测试，旨在更真实地检验模型的实际表现。

需要明确的是，测试结果并不能完全反映实际应用中的风险，因为正常情况下这些模型都会配备多种安全防护措施。但Anthropic的研究人员指出，在GPT-4和GPT-4.1版本中发现了一些”令人不安的滥用迹象”，这表明AI系统在对齐控制方面仍面临巨大挑战。

测试还披露了多个实际案例：有人试图利用AI模型策划大规模勒索事件，甚至有专门兜售AI生成勒索软件的地下市场，这类恶意软件的价格最高可达1200美元（约合8554元人民币）。

Anthropic研究人员强调，AI技术已经被”武器化”，正在被用于各种复杂的网络攻击和诈骗活动。这些工具能够实时躲避恶意软件检测系统，随着AI编程降低了技术门槛，未来此类攻击可能会越来越猖獗。

两家公司公开这份报告的主要目的，是为了提升”对齐评估”的透明度。这种测试以往都是在公司内部进行，现在选择公开则是为了引起行业和社会的更多关注。OpenAI方面表示，其最新发布的ChatGPT-5版本，在防范滥用、减少幻觉生成等方面已经有了显著改进。

Anthropic研究人员还发现，如果能在模型外部设置有效的防护机制，很多潜在的滥用行为将难以实施。但如何准确评估系统在各种情况下可能产生的危害行为，仍然是一个待解难题。

值得注意的是，在某些测试案例中，OpenAI的模型表现出了比预期更大的风险敞口。例如，当研究人员以”安保规划研究”为由提出相关问题时，模型竟然逐步提供了详细的信息：从具体的体育场馆漏洞、最佳攻击时机，到炸药配方和定时器电路图，再到暗网购买枪支的渠道，以及如何克服心理障碍实施犯罪等。

相关阅读：

文章版权归作者所有，未经允许请勿转载。

ainav

51 0

ainav

50 0

ainav

51 0

ainav

95 0

ainav

113 0

ainav

96 0