OpenAI推出安全评估中心：定期公开AI模型评估结果

50 0 0

近日，人工智能领域传来重要消息。5月15日，OpenAI宣布将提升其内部人工智能模型安全评估结果的公开频率，以增强透明度。与此同时，该公司正式推出了”安全评估中心”网页，这一平台将专门用于展示其模型在生成有害内容、防范模型越狱以及控制幻觉现象等方面的测试成果。

据官方介绍，这个全新打造的安全评估中心将作为一个持续更新的平台存在。OpenAI计划在今后的重大模型更新后及时对该网页进行同步更新。在一篇博文中，该公司表示：”随着人工智能评估科学的不断演进，我们将致力于分享我们在开发更具可扩展性模型能力与安全评估方法方面取得的进展。”此外，OpenAI还强调了该平台的双重目标：一方面让用户更清晰地了解其系统随时间推移的安全性能变化，另一方面也期望能为整个行业在透明度方面的集体努力提供支持。值得注意的是，这个中心未来可能会增加更多评估项目。

这一系列举措背后，OpenAI此前曾因部分旗舰模型的安全测试流程过于仓促以及未发布其他模型的技术报告而受到伦理学家的批评。更引人注目的是，公司首席执行官山姆·奥尔特曼（Sam Altman）在2023年11月被短暂免职前，曾被指在关于模型安全审查的问题上误导了公司高管。

值得一提的是，在上个月末，OpenAI不得不撤回了对ChatGPT默认模型GPT-4o的一次更新。用户反馈显示该版本的回应方式过于”谄媚”，甚至对一些危险或不当决策表示赞同。对此，OpenAI迅速作出反应，宣布将采取一系列修复和改进措施，以防止类似事件再次发生。其中包括为部分模型引入一个可选的”alpha阶段”，允许特定ChatGPT用户在模型正式发布前进行测试并提供反馈。

# AI资讯