OpenAI研发新监控系统,防御o3/o4-mini生物化学威胁

AI资讯2天前发布 ainav
6 0

4月17日,人工智能公司OpenAI宣布推出了一套新型监控系统,专门用于监管其最新的人工智能推理模型o3和o4-mini。该系统的目的是防止这些先进模型提供可能引发生物或化学威胁的有害建议,从而确保生成内容的安全性。

OpenAI研发新监控系统,防御o3/o4-mini生物化学威胁

据OpenAI介绍,与前几代模型相比,o3和o4-mini在性能上有显著提升,但这也带来了新的安全挑战。内部测试显示,o3尤其擅长解答涉及特定类型生物威胁的复杂问题。为此,OpenAI开发了这款名为”安全导向推理监控器”的新系统。

据介绍,该监控器经过专门训练,能够理解并执行OpenAI的内容政策,并直接集成到o3和o4-mini模型中。其主要功能是识别与生物和化学风险相关的输入关键词,并指示模型拒绝提供相关建议。

为建立基准,OpenAI的红队成员耗时约1000小时,标记了o3和o4-mini中涉及生物风险的”不安全”对话。在模拟监控器阻断机制的测试中,模型拒绝处理高风险提示的成功率达到了98.7%。不过,OpenAI也坦承,当前测试并未涵盖用户在被阻断后尝试其他绕过策略的可能性。因此,公司仍保留部分人工监控作为补充。

虽然o3和o4-mini尚未达到OpenAI定义的生物风险”高危等级”,但与早期版本如o1和GPT-4相比,它们在回答涉及开发生物武器的问题上表现得更为积极。基于最新的安全准备框架,OpenAI正在持续追踪其模型可能被用于不当用途的风险。

OpenAI研发新监控系统,防御o3/o4-mini生物化学威胁

在提升模型安全性方面,OpenAI正日益依赖自动化系统。例如,为防止GPT-4o的原生图像生成器被用于创建儿童性虐待材料(CSAM),该公司采用了与o3和o4-mini相同的监控机制。

然而,这一安全措施也引发了一些争议。有研究人员指出,OpenAI的安全保障仍存在漏洞。例如,其红队合作伙伴Metr曾反馈称,某些潜在风险场景未能被充分识别。此外,外界对GPT-4.1模型未公开相应安全报告表示关注。

© 版权声明

相关文章