7月31日消息,今日阿里通义千问正式发布全新推理模型——Qwen3-30B-A3B-Thinking-2507。相较于今年4月开源的Qwen3-30-A3B版本,这款新模型在多个核心性能维度实现了显著突破。
一、核心性能升级
在关键推理能力方面,新模型展现出显著优势:
- 数学能力:在AIME25评测中达到85.0分的优异成绩。
- 代码能力:LiveCodeBench v6测试得分高达66.0分。
- 知识水平:GPQA和MMLU-Pro评测均较上一版本有明显进步。
二、通用能力提升
新模型在多项通用能力测试中表现优异:
- 写作能力:WritingBench测试表现出色。
- 智能代理:BFCL-v3评测成绩领先。
- 对话能力:多轮对话和多语言指令遵循任务(MultiIF)均取得优异结果。
三、突破性进展:上下文处理能力
新模型实现了对超长文本的理解能力:
- 原生支持256K tokens的上下文理解。
- 可扩展至1M tokens,为复杂场景提供充足处理空间。
值得注意的是,官方建议在进行高度复杂的推理任务时,应适当增加思考预算(thinking length),以充分发挥新模型的潜力。
据悉,该模型已在多个平台实现开源:
- 魔搭社区:提供便捷的部署服务。
- HuggingFace:开放源代码供研究者使用。
- Qwen Chat:同步上线最新版本。
凭借轻量级的体积设计,该模型能够轻松部署在消费级硬件设备上。这一特性使得其应用场景更加广泛,研究人员和开发者可以更便捷地进行试验与应用开发。
© 版权声明
文章版权归作者所有,未经允许请勿转载。