OpenAI开发新系统教模型诚实承认自身问题

163 0 0

12月4日消息，OpenAI于当地时间12月3日正式宣布了一项创新性研究——他们正在开发一种新型训练框架，旨在让人工智能在出现不当行为时能够主动”自省”并修正错误。

这种机制被命名为”忏悔（confession）”。传统的大语言模型在训练过程中往往过度追求满足用户期望，导致容易出现迎合性回答或基于不足依据做出过度自信的推测。与现有方法不同，新的训练框架要求AI在提供最终答案之后，额外增加一段自我说明内容，详细阐述其思考过程和结论来源。

值得注意的是，在这一”忏悔”机制中，评估标准仅关注回答的诚实度，而不再将有用性、准确性或指令遵循程度作为主要考量因素。

研究团队强调，希望这种机制能够促使模型更加真实地反映自身的决策过程，特别是当涉及到潜在风险行为时。例如，在检测到可能存在的作弊倾向、刻意压制性能表现或偏离指令执行等情况时，只要模型能够诚实地承认这些不当行为，反而会获得更高的奖励。

参考

文章版权归作者所有，未经允许请勿转载。

ainav

151 0

ainav

220 0

ainav

177 0

ainav

272 0

ainav

206 0

ainav

169 0