美团发布SOTA级高效推理模型LongCat-Flash-Thinking

AI资讯2个月前发布 ainav
75 0

9月22日,美团LongCat团队正式对外发布其最新研发的高效推理模型——LongCat-Flash-Thinking。

据官方介绍,这款新模型在继承了LongCat-Flash-Chat快速响应的优势基础上,进一步提升了功能性和专业性。权威评测结果显示,在逻辑推理、数学计算、代码分析以及智能体控制等多个领域,LongCat-Flash-Thinking的综合性能均已达到当前全球范围内开源模型的最高水准(SOTA)。

值得注意的是,LongCat-Flash-Thinking在多个维度实现了技术突破:不仅显著增强了智能体自主调用工具的能力,更首次将”深度思考 + 工具调用”与”非形式化 + 形式化”推理能力相结合。尤其是在处理复杂度极高的数学、代码和智能体相关任务时,该模型展现出明显的技术优势。

创新架构:高效推理与稳定训练的双重突破

领域并行强化学习训练方法:针对强化学习领域的混合训练难题,团队开创性地采用了”领域解耦并行方案”。通过将STEM、代码和智能体任务的优化过程相互独立,并结合多领域平行训练再融合策略,最终实现了模型能力的全面均衡提升,达到了帕累托最优(Pareto-Optimal)的理想状态。

美团发布SOTA级高效推理模型LongCat-Flash-Thinking

▲ 图1:LongCat-Flash-Thinking的训练流程

异步弹性共卡系统:作为整个训练体系的核心,DORA(异步弹性共卡系统)通过创新性的弹性共卡调度策略和多版本异步流水线设计,在实现与同步RL训练框架相比三倍性能提升的同时,有效保证了每条样本的策略一致性。此外,该系统还实现了高效的KV缓存复用机制,能够完美支持大规模万卡集群的稳定运行。

智能体推理框架:团队独创”双路径推理框架”,实现了对最优查询样本的自动筛选功能,并将智能体推理与工具使用无缝结合。这一突破使得模型能够更高效地识别和调用外部工具(如代码执行器、API接口等),从而在保证90%准确率的前提下,将Token消耗从19653降至6965,实现了资源利用率的显著提升。

形式化推理框架:为了解决开源大模型在形式化证明任务中的普遍短板,团队设计了一套基于专家迭代框架的数据合成方法。通过集成Lean4服务器,该流程能够生成经过严格验证的证明过程,从而系统性地提升了模型的形式化推理能力。

多维度评测:持续领先的技术实力

美团发布SOTA级高效推理模型LongCat-Flash-Thinking

▲ 图2:不同模型在推理基准测试中的性能对比
  • 通用推理能力:LongCat-Flash-Thinking展示了超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型的出色表现,在ARC-AGI基准测试中获得50.3分。

  • 数学能力:在HMMT和AIME相关评测中,该模型取得了突破性成绩,与Qwen3-235B-A22B-Thinking等领先模型处于同一水平线。

  • 代码能力:在LiveCodeBench测试中以79.4分的成绩超越所有参与评测的开源模型,并与GPT-5等顶级闭源模型旗鼓相当。同时,在OJBench基准测试中的40.7得分也充分展现了其强大的编程问题解决能力。

  • 智能体能力:在τ2-Bench-Airline评测中以67.5分刷新了开源模型的最高纪录,并在SWE-Bench、BFCL V3和VitaBench等测试中展现了卓越的竞争实力。

  • ATP形式推理能力:在MiniF2F-test基准测试中,LongCat-Flash-Thinking的pass@1评分高达67.6分,显著领先于其他所有参评模型,并在pass@8和pass@32指标上同样保持领先地位。

开源平台链接:

  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

  • Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking

© 版权声明

相关文章