10月9日,蚂蚁集团正式发布其最新研发的万亿参数级通用语言模型——Ling-1T。这款模型作为蚂蚁百灵大模型Ling 2.0系列的旗舰产品,标志着该团队在大规模非思考型模型开发领域取得了重要突破。
评测结果显示,在严格的Token输出限制条件下,Ling-1T在多个复杂推理基准测试中达到了当前最优水平(SOTA)。特别是在代码生成、软件开发、数学竞赛等高难度任务中均展现出色性能,关键指标超过现有开源模型的平均水平。
以极具挑战性的AIME 25竞赛数学榜单为例,Ling-1T在仅消耗4000+ Token的情况下,准确率达到70.42%,优于Gemini-2.5-Pro的5000+ Token、70.10%成绩。这充分证明了Ling-1T在推理精度与计算效率之间的卓越平衡能力。
据研发团队介绍,Ling-1T基于创新的Ling 2.0架构,在高达20T+tokens的高质量语料库上进行预训练,并支持最长128K上下文窗口。通过独特的”中训练+后训练”演进式思维链(Evo-CoT)技术,显著提升了模型的高效推理能力。
在智能体工具调用任务BFCL V3测试中,Ling-1T仅需少量指令微调即可实现约70%的准确率。这一结果表明,即使未进行大规模操作轨迹训练,模型仍能通过出色的推理迁移能力完成复杂任务。
尽管取得了显著进展,Ling-1T目前仍面临以下局限性:
-
持续依赖GQA注意力架构
-
智能体能力尚需提升
-
指令遵循与身份认知问题
在处理超长上下文和复杂推理任务时,模型的计算成本仍然较高。针对这些问题,团队计划在未来版本中引入混合注意力架构,并通过强化式训练优化模型性能。
目前模型在多轮交互、长期记忆保持以及复杂工具使用等方面还存在改进空间。后续将重点提升工具理解与使用能力,进一步增强模型的主动性和泛化能力。
此外,在特定场景下仍可能出现指令执行偏差或角色混淆问题。针对此,团队计划采用强化式身份对齐和安全微调技术来提高模型一致性。
未来,Ling系列模型将继续在架构创新、推理能力提升与人机对齐方面进行深入优化,目标是实现更高级别的通用智能。
相关资源链接:
HuggingFace:https://huggingface.co/inclusionAI/Ling-1T
ModelScope:https://modelscope.cn/models/inclusionAI/Ling-1T
GitHub:https://github.com/inclusionAI/Ling-V2
Ling chat(国内用户):https://ling.tbox.cn/chat
ZenMux(海外开发者入口,提供测试与API服务):https://zenmux.ai/inclusionai/ling-1t