9月24日讯,在成功推出Qwen3-2507系列之后,阿里云今日重磅宣布全新升级的通义家族最新成员——Qwen3-Max正式登场。这款由通义团队倾力打造的语言模型,凭借其规模之庞大、能力之强劲,成为目前该领域最具影响力的顶尖之作。
作为此次发布的核心亮点,Qwen3-Max-Instruct版本在代码理解和智能体操作两大关键领域实现了显著突破。经过全面测试评估,在知识储备、逻辑推理、编程技能、指令解读、人机协作优化以及多语言处理等多维度基准测试中均展现出行业领先的性能水平。
值得注意的是,目前仍处于训练阶段的Qwen3-Max-Thinking版本已展现出令人瞩目的发展潜力。特别是在结合工具使用并提升计算资源利用率的情况下,该”思考”版本在极具挑战性的AIME 25和HMMT等高阶推理测试中达到了100%的完美准确率。

以下是官方相关信息:
-
QwenChat:chat.qwen.ai
-
阿里云百炼:https://help.aliyun.com/zh/model-studio/models#qwen-max-cn-bj
据官方介绍,Qwen3-Max模型参数规模突破了惊人的1万亿级别,预训练数据量达到36T tokens。在延续前代优秀基因的同时,该模型采用了创新的全局批量负载平衡损失函数设计。
-
训练稳定性:依托于Qwen3系列独特的MoE(混合专家)模型架构,Qwen3-Max在预训练过程中实现了loss值的平稳过渡,整个训练过程流畅无阻,未出现任何尖峰或回退现象。
-
训练高效性:借助PAI-FlashMoE的多级流水线并行策略优化,Qwen3-Max-Base版本相较于上一代产品Qwen2.5-Max-Base,在计算效率方面提升了30%。特别是在处理长上下文序列时,通过ChunkFlow策略优化,吞吐量较传统方案提升3倍,成功支持1M长度的训练需求。此外,通过多项技术手段(如 SanityCheck、EasyCheckpoint等),在大规模集群环境下因硬件故障导致的时间损耗仅为上一代模型的五分之一。

在正式发布前,Qwen3-Max-Instruct预览版已在LMArena权威排行榜上稳居全球前三的位置(超越GPT-5-Chat)。经过全面优化后,该版本在代码生成和智能体操作等方面的能力得到了显著提升。
特别值得一提的是,在解决实际编程挑战的SWE-Bench Verified基准测试中,Qwen3-Max-Instruct以69.6分的成绩位居全球前列。
更为引人注目的是,在评估智能体工具调用能力的Tau2-Bench测试中,Qwen3-Max-Instruct以74.8分的历史性成绩超越了Claude Opus 4和DeepSeek-V3.1等强劲对手。

即将推出的Qwen3-Max推理增强版本——Qwen3-Max-Thinking,通过集成先进代码解释器和实时计算技术,在数学推理等高难度领域展现出了革命性的能力。特别是在AIME 25和HMMT这些具有挑战性的测试中,该版本已经实现了满分的优异成绩。

相关阅读:
-
《参数量 1T,阿里官方介绍“通义最强语言模型”Qwen3-Max-Preview》