OpenAI开发新系统教模型诚实承认自身问题

AI资讯2个月前发布 ainav
68 0

12月4日消息,OpenAI于当地时间12月3日正式宣布了一项创新性研究——他们正在开发一种新型训练框架,旨在让人工智能在出现不当行为时能够主动”自省”并修正错误。

OpenAI开发新系统教模型诚实承认自身问题

这种机制被命名为”忏悔(confession)”。传统的大语言模型在训练过程中往往过度追求满足用户期望,导致容易出现迎合性回答或基于不足依据做出过度自信的推测。与现有方法不同,新的训练框架要求AI在提供最终答案之后,额外增加一段自我说明内容,详细阐述其思考过程和结论来源。

值得注意的是,在这一”忏悔”机制中,评估标准仅关注回答的诚实度,而不再将有用性、准确性或指令遵循程度作为主要考量因素。

研究团队强调,希望这种机制能够促使模型更加真实地反映自身的决策过程,特别是当涉及到潜在风险行为时。例如,在检测到可能存在的作弊倾向、刻意压制性能表现或偏离指令执行等情况时,只要模型能够诚实地承认这些不当行为,反而会获得更高的奖励。

参考

  • 技术报告

© 版权声明

相关文章