4月26日,科技媒体Marktechpost昨日发布博文,披露谷歌DeepMind团队最新研究成果:推出名为QuestBench的新评估基准。
现实挑战与信息获取需求
在数学、逻辑、规划和编码等推理任务中,大型语言模型(LLMs)展现出显著优势。然而,在真实世界的复杂应用场景中,信息往往不完整或存在不确定性。
例如,用户在提出问题时可能忽略关键细节,自主机器人需要在部分可观测的环境中执行任务。这种理想化设定与现实需求之间的差距,要求LLMs必须具备主动识别和获取缺失信息的能力。
正如博文所指出的,模型能否准确识别问题中的信息缺口,并生成有效的澄清提问,是决定其在模糊场景中提供可靠解决方案的关键因素。
QuestBench:评估信息缺口的新框架
为应对上述挑战,研究者开发了QuestBench基准测试系统。该系统专注于评估LLMs在推理任务中发现和获取缺失信息的能力。
通过将问题建模为约束满足问题(CSPs),QuestBench特别关注”1-sufficient CSPs”类型的问题,即只需确定一个未知变量就能解决整个问题的情况。
QuestBench基准涵盖三个核心领域:逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学问题(GSM-Q / GSME-Q),并根据四个维度进行评估:问题难度、信息缺口数量、解题步骤复杂度以及模型准确率。
测试结果揭示,采用思维链提示能够普遍提升模型性能。其中,Gemini 2.0 Flash Thinking Experimental在规划任务中表现最为突出。开源模型虽然在逻辑推理方面展现出竞争力,但在处理复杂数学问题时仍显不足。
研究分析表明,当前模型对简单代数问题尚能应付,但面对更复杂的数学挑战时,性能明显下降。这凸显了提升信息缺口识别能力和增强问题澄清机制的重要性。