全球首个开源“重思考”模型美团 LongCat-Flash-Thinking 发布，工具调用能力登顶SOTA

135 0 0

1月16日，美团LongCat团队正式对外发布并开源了其最新研发的智能模型——LongCat-Flash-Thinking-2601。

作为LongCat-Flash-Thinking系列的全新升级版本，LongCat-Flash-Thinking-2601在多个核心评测基准上实现了显著突破。该模型在智能体搜索、工具调用及交互推理等关键领域均达到了开源模型的最优水平（SOTA）。

在工具调用方面，LongCat-Flash-Thinking-2601展现出了卓越的泛化能力。尤其是在涉及复杂随机任务时，其性能已超越Claude等竞品模型。值得注意的是，该模型是首个完全开源并支持在线免费体验”重思考模式”的AI系统。

LongCat-Flash-Thinking-2601的核心优势在于其独特的”重思考”机制。当遇到复杂问题时，模型会将思考过程分解为两个关键阶段：

为了进一步提升模型的表现，美团团队专门设计了强化学习模块，重点优化其总结归纳能力。这一创新使得LongCat-Flash-Thinking-2601真正实现了”深思熟虑后再行动”的智能水平。

在多项权威评测中，LongCat-Flash-Thinking-2601均展现出行业领先水准：

为了全面测试模型的泛化能力，美团创新性地提出了一套自动化任务生成和评估体系。这套系统可以根据指定关键词自动生成复杂多变的任务，并为每个任务提供专门的工具集和执行环境。

通过在这些高度随机化的环境中评估模型表现，LongCat-Flash-Thinking-2601展现出了卓越的泛化能力。实验结果表明，该模型在绝大多数测试任务中均保持领先性能。

官方开源资源：

文章版权归作者所有，未经允许请勿转载。

ainav

917 0

ainav

152 0

ainav

225 0

ainav

2,942 0

ainav

220 0

ainav

201 0