阿里通义千问重磅推出全新推理模型Qwen3-30B-A3B-Thinking-2507:性能显著提升

AI资讯1个月前发布 ainav
61 0

7月31日消息,今日阿里通义千问正式发布全新推理模型——Qwen3-30B-A3B-Thinking-2507。相较于今年4月开源的Qwen3-30-A3B版本,这款新模型在多个核心性能维度实现了显著突破。

阿里通义千问重磅推出全新推理模型Qwen3-30B-A3B-Thinking-2507:性能显著提升

一、核心性能升级

在关键推理能力方面,新模型展现出显著优势:

  • 数学能力:在AIME25评测中达到85.0分的优异成绩。
  • 代码能力:LiveCodeBench v6测试得分高达66.0分。
  • 知识水平:GPQA和MMLU-Pro评测均较上一版本有明显进步。

二、通用能力提升

新模型在多项通用能力测试中表现优异:

  • 写作能力:WritingBench测试表现出色。
  • 智能代理:BFCL-v3评测成绩领先。
  • 对话能力:多轮对话和多语言指令遵循任务(MultiIF)均取得优异结果。

阿里通义千问重磅推出全新推理模型Qwen3-30B-A3B-Thinking-2507:性能显著提升

三、突破性进展:上下文处理能力

新模型实现了对超长文本的理解能力:

  • 原生支持256K tokens的上下文理解。
  • 可扩展至1M tokens,为复杂场景提供充足处理空间。

值得注意的是,官方建议在进行高度复杂的推理任务时,应适当增加思考预算(thinking length),以充分发挥新模型的潜力。

据悉,该模型已在多个平台实现开源:

  • 魔搭社区:提供便捷的部署服务。
  • HuggingFace:开放源代码供研究者使用。
  • Qwen Chat:同步上线最新版本。

阿里通义千问重磅推出全新推理模型Qwen3-30B-A3B-Thinking-2507:性能显著提升

凭借轻量级的体积设计,该模型能够轻松部署在消费级硬件设备上。这一特性使得其应用场景更加广泛,研究人员和开发者可以更便捷地进行试验与应用开发。

© 版权声明

相关文章