OpenAI 新推理模型能力增强但”幻觉”增多

27 0 0

4月19日，OpenAI最新发布的o3和o4-mini模型在多个领域展现了卓越的性能，但令人意外的是，这两款备受瞩目的模型却在幻觉问题上表现不佳，甚至较前代产品更加严重。

据外媒TechCrunch报道，幻觉问题是生成式AI发展过程中面临的核心难题之一。尽管目前性能最顶尖的模型已经能够在一定程度上控制这一问题，但o3和o4-mini却未能延续这种进步趋势。每一代新模型通常会在降低幻觉发生率方面取得小幅改进，但这两款最新产品却打破了这一行业规律。

OpenAI的内部测试数据显示，作为推理模型的o3和o4-mini，在产生幻觉的比例上不仅超过了前代推理模型o1、o1-mini和o3-mini，甚至比传统”非推理”模型的表现还要差（例如GPT-4系列）。这一结果表明，最新一代模型在准确性方面出现了明显的倒退。

OpenAI在其技术报告中分析指出：”随着推理模型规模的扩大，幻觉问题为何反而变得更加严重，这仍是一个待解之谜。”报告称，尽管o3和o4-mini在编程、数学等特定任务上的表现更为出色，但由于模型输出的信息量大幅增加，导致其在提供更多准确判断的同时，也不可避免地出现了更多错误甚至完全虚构的内容。

在OpenAI自设的PersonQA测试中，o3回答问题时出现幻觉的比例达到惊人的33%，几乎是前代推理模型o1和o3-mini的两倍（后者的幻觉率分别为16%和14.8%）。更令人担忧的是，o4-mini的表现更加糟糕，其幻觉率竟然高达48%。

第三方机构Transluce的测试结果也印证了这一问题。这家专注于AI研究的非营利实验室发现，o3在回答问题时常常会编造一些并不存在的”中间步骤”。例如，研究人员曾观察到o3声称自己在一个2021款MacBook Pro上”在ChatGPT之外“运行了某些代码，并将结果复制到了答案中。实际上，尽管o3拥有部分工具访问权限，但完全不具备执行此类操作的能力。

面对这一挑战，OpenAI发言人Niko Felix表示：”解决幻觉问题是我们重点研究的方向之一，我们始终在努力提升模型的准确性和可靠性。”

# AI资讯