OpenAI 新推理模型能力增强但”幻觉”增多

AI资讯14小时前发布 ainav
3 0

4月19日,OpenAI最新发布的o3和o4-mini模型在多个领域展现了卓越的性能,但令人意外的是,这两款备受瞩目的模型却在幻觉问题上表现不佳,甚至较前代产品更加严重。

据外媒TechCrunch报道,幻觉问题是生成式AI发展过程中面临的核心难题之一。尽管目前性能最顶尖的模型已经能够在一定程度上控制这一问题,但o3和o4-mini却未能延续这种进步趋势。每一代新模型通常会在降低幻觉发生率方面取得小幅改进,但这两款最新产品却打破了这一行业规律。

OpenAI的内部测试数据显示,作为推理模型的o3和o4-mini,在产生幻觉的比例上不仅超过了前代推理模型o1、o1-mini和o3-mini,甚至比传统”非推理”模型的表现还要差(例如GPT-4系列)。这一结果表明,最新一代模型在准确性方面出现了明显的倒退。

OpenAI在其技术报告中分析指出:”随着推理模型规模的扩大,幻觉问题为何反而变得更加严重,这仍是一个待解之谜。”报告称,尽管o3和o4-mini在编程、数学等特定任务上的表现更为出色,但由于模型输出的信息量大幅增加,导致其在提供更多准确判断的同时,也不可避免地出现了更多错误甚至完全虚构的内容。

在OpenAI自设的PersonQA测试中,o3回答问题时出现幻觉的比例达到惊人的33%,几乎是前代推理模型o1和o3-mini的两倍(后者的幻觉率分别为16%14.8%)。更令人担忧的是,o4-mini的表现更加糟糕,其幻觉率竟然高达48%

第三方机构Transluce的测试结果也印证了这一问题。这家专注于AI研究的非营利实验室发现,o3在回答问题时常常会编造一些并不存在的”中间步骤”。例如,研究人员曾观察到o3声称自己在一个2021款MacBook Pro上”在ChatGPT之外“运行了某些代码,并将结果复制到了答案中。实际上,尽管o3拥有部分工具访问权限,但完全不具备执行此类操作的能力。

面对这一挑战,OpenAI发言人Niko Felix表示:”解决幻觉问题是我们重点研究的方向之一,我们始终在努力提升模型的准确性和可靠性。”

© 版权声明

相关文章