1月16日,美团LongCat团队正式对外发布并开源了其最新研发的智能模型——LongCat-Flash-Thinking-2601。
作为LongCat-Flash-Thinking系列的全新升级版本,LongCat-Flash-Thinking-2601在多个核心评测基准上实现了显著突破。该模型在智能体搜索、工具调用及交互推理等关键领域均达到了开源模型的最优水平(SOTA)。
在工具调用方面,LongCat-Flash-Thinking-2601展现出了卓越的泛化能力。尤其是在涉及复杂随机任务时,其性能已超越Claude等竞品模型。值得注意的是,该模型是首个完全开源并支持在线免费体验”重思考模式”的AI系统。
LongCat-Flash-Thinking-2601的核心优势在于其独特的”重思考”机制。当遇到复杂问题时,模型会将思考过程分解为两个关键阶段:
-
并行思考阶段:模型能够同时生成多条独立的推理路径,类似于人类在面对难题时探索不同解决方案的过程。这种多样性保证了不会遗漏最优解。
-
总结归纳阶段:对所有可能的推理路径进行分析、优化和整合,并将最终结果重新输入系统,形成一个闭环迭代推理过程,从而不断深化思考深度。
为了进一步提升模型的表现,美团团队专门设计了强化学习模块,重点优化其总结归纳能力。这一创新使得LongCat-Flash-Thinking-2601真正实现了”深思熟虑后再行动”的智能水平。
在多项权威评测中,LongCat-Flash-Thinking-2601均展现出行业领先水准:
-
编程能力:在LCB和OIBench EN评测中分别获得82.8分和47.7分,处于同类模型的第一梯队。
-
数学推理能力:在AIME-25评测中取得满分100.0,在IMO-AnswerBench中获得86.8分,双双达到当前最优水平(SOTA)。
-
智能体工具调用能力:在τ²-Bench和VitaBench评测中分别获得88.2分和29.3分,均为开源模型中的最佳成绩。
-
智能体搜索能力:在BrowseComp任务中取得73.1分,在RW Search评测中获得79.5分,展现出强大的信息检索与场景适配能力。
为了全面测试模型的泛化能力,美团创新性地提出了一套自动化任务生成和评估体系。这套系统可以根据指定关键词自动生成复杂多变的任务,并为每个任务提供专门的工具集和执行环境。
通过在这些高度随机化的环境中评估模型表现,LongCat-Flash-Thinking-2601展现出了卓越的泛化能力。实验结果表明,该模型在绝大多数测试任务中均保持领先性能。
官方开源资源: