昆仑万维与北京大学共同研发的升级版混合专家系统 MoE++

AI工具3个月前发布 ainav
119 0

MoE++指的是什么?

MoE++代表了一种创新的混合专家(Mixture-of-Experts)架构方案,该技术由昆仑万维2050研究院及北大袁粒团队合作开发而成。通过集成零计算量专家组件如零专家、复制专家和常数专家等元素,它显著降低了运算成本并增强了模型效能。MoE++具备灵活性,允许每个Token根据需要与多个前馈网络中的不同数量的专家互动或跳过特定层,从而优化了计算资源的应用效率。此外,借助门控残差机制,在选择相关专家时能够参考上一层路由的信息路径,进一步提升了系统的稳定性和可靠性。实验证明,在相同的模型规模下,MoE++不仅优于传统的混合专家系统,并且其在提高专家吞吐量方面有1.1到2.1倍的增长速度优势,同时具备更高的部署简易性。

MoE++

MoE++的核心特性

  • 减少计算开支在MoE++中,通过采用无额外计算开销的虚拟专家方案,使得模型内的每一个Token能够灵活选择并互动于不同的前馈网络(FFN)专家组合之中,乃至完全绕过特定层级处理,从而有效降低了冗余运算量。
  • 增强模型的表现能力通过降低对简易Token的FFN专家需求量,MoE++能够腾出更多专家资源来专门应对复杂Token的问题,从而增强整个模型的表现能力。
  • 改善资源配置MoE++利用灵活的计算分配机制,使模型能够把更多的计算资源倾斜到那些需求更高的Token上,从而增强其计算效率。
  • 固定路径MoE++通过采用门控残差(gating residuals)技术,使令牌在挑选专家的过程中能够借鉴上一层的路径分配情况,从而达到更加稳定的选择效果。
  • 简便安装鉴于零计算量专家拥有非常紧凑的参数集,MoE++能够在单一GPU上容纳全部此类专家,从而消除了因分布式的前馈网络专家配置而导致的通讯损耗及负载不平衡的问题。

MoE++的核心技术机制

  • 无计算任务的专业人士在MoE++中,加入了三种不增加计算负担的专家类型,分别是:空白专家(生成空输出向量)、复现专家(其输出与输入相同)和固定值专家(使用一个可以学习调整的常数向量来代替输入数据)。
  • 动态挑选专家不同于传统的MoE技术,MoE++允许每个Token依据自身的复杂程度灵活选取不同的FFN专家数目来进行处理。
  • 控制残留效应MoE++通过引入门控残差机制,在选定每个层级的专家时使Token参考上一层级的路由决策,从而增强了跨层次的信息传递能力。
  • 多样化专业架构在MoE++架构里,其采用的是多样化的专家设计模式,其中包括处理函数变换网络任务的专门模块与执行无额外计算操作的部分,在同一系统中共存并相互配合,从而增强了整体系统的应变能力和运作弹性。
  • 负荷均衡MoE++通过采用负荷均衡损失及优化的专家资源分配方案,保证了训练期间各专家任务量的均匀分布,有效防止了个别专家负担过重而其他则利用率低下的情况。

MoE++项目的仓库位置

  • Git存储库:访问SkyworkAI团队的MoE-plus-plus项目,请前往此链接 https://github.com/SkyworkAI/MoE-plus-plus
  • HuggingFace的模型集合访问此链接以查看经过升级的模型版本:https://huggingface.co/Chat-UniVi/MoE-Plus-Plus-7B
  • arXiv科技文章访问此链接可获取论文的PDF版本:https://arxiv.org/pdf/2410.07348,该链接提供了研究文档的直接下载地址。

MoE++的使用情境

  • 从事自然语言处理(NLP)领域的学者们研究人员致力于开发并优化高性能的大型语言模型,以推进在自然语言处理、内容创作、自动翻译及智能问答等领域中的应用与探索。
  • 公司软件创作者为了提升产品智能化的程度,企业开发者正在创建诸如智能客户服务、内容建议系统、自动化摘要生成和情绪分析等一系列高性能自然语言处理应用程序。
  • 提供云计算及人工智能服务的供应商服务商采用MoE++框架,向用户交付更加高效且经济的AI解决方案,特别适用于需应对海量文本信息的情况。
  • 教育研究组织教育组织致力于多种自然语言处理项目的教学与科研工作,助力学者及学员掌握高阶的深度学习架构和技术。
© 版权声明

相关文章