Qwen3-Next:阿里通义开源的混合架构模型

AI工具2个月前发布 ainav
76 0

Qwen3-Next是什么

Qwen3-Next是由阿里巴巴通义团队推出的全新一代混合架构大模型。该模型提供两个版本:指令版(Qwen3-Next-80B-A3B-Instruct)和思维版(Qwen3-Next-80B-A3B-Thinking)。作为行业领先的AI模型,Qwen3-Next采用了创新的Gated DeltaNet与Gated Attention混合架构设计,在保证性能的同时实现了更高效的资源利用。其参数总量高达800亿,并且在每次推理过程中仅需激活约30亿参数,极大降低了计算成本。

Qwen3-Next:阿里通义开源的混合架构模型

Qwen3-Next的核心功能

  • 智能指令处理:优化设计的指令版(Instruct)版本在理解和执行用户指令方面表现出色。
  • 深度问题解决:思维版(Thinking)具备强大的多步推理和复杂问题分析能力。
  • 长文本支持:模型能够高效处理超过32K长度的长文本,满足复杂场景需求。
  • 高性能计算:基于混合动力引擎架构,在保证准确率的前提下实现快速响应。
  • 资源优化:通过动态参数激活机制,在保持大模型能力的同时显著降低算力消耗。

Qwen3-Next的技术优势

  • 创新架构:采用75%的Gated DeltaNet与25%的Gated Attention相结合的独特设计,实现了性能与效率的最佳平衡。这种混合架构既能保证模型处理速度,又能维持高精度输出。
  • 计算优化:通过精妙的参数激活机制,在800亿参数规模下实现高效运行,确保资源使用率达到最优状态。
  • 应用场景广泛:适用于长上下文理解、高并发请求处理以及低延迟响应等复杂场景,目前已全面接入阿里云百炼平台和QwenChat在线服务,提供API接口调用和网页端体验等多种使用方式。
© 版权声明

相关文章