AI21开放的首款依托Mamba框架构建的大规模模型——Jamba

AI工具3个月前发布 ainav
128 0

Jamba指的是什么?

Jamba是AI21 Labs开发的一款采用Mamba架构的大规模语言生成模型,当前大多数大型模型(例如GPT、Gemini 和 Llama)均依赖于Transformer框架。相比之下,Jamba巧妙融合了Mamba结构化状态空间模型(SSM)与经典的Transformer设计,从而实现了高性能输出、高处理速度和较小的内存需求等优势并存的局面。通过这种混合架构的设计思路,该模型能够支持长达256K字符长度的文本窗口,在应对长篇幅内容时展现出更强的数据吞吐能力和工作效率。

Jamba 在Apache 2.0开源许可证下以开放权重的形式公开发布,旨在促进社区的研究与优化工作。当前,Jamba 主要作为研究工具提供,并不保证其具备商业应用价值。预计在未来几周内,AI21 Labs 将推出一个更加安全且经过微调的版本。

AI21 Jamba

访问Jamba的官方网站入口

  • 官方网站地址:https://www.ai21.com/jamba
  • 官方网站发布文章宣告新品Jamba的推出:https://www.ai21.com/blog/introducing-jamba
  • 访问AI21实验室的Jamba-v0.1模型,请前往Hugging Face平台:https://huggingface.co/ai21labs/Jamba-v0.1

Jamba的核心特点

  • 结合了SSM与Transformer的融合架构Jamba作为首款融合了Mamba SSM(结构化状态空间模型)与Transformer框架的量产型模型,其独特的复合架构设计目的是为了增强系统的效能和运行效率。
  • 较大的上下文范围Jamba具备了256K的上下文范围,让其有能力应对更为延长的文字序列,特别适合执行更加复杂多变的语言处理工作。
  • 高性能处理能力与同样大小的Mixtral 8x7B模型相比,Jamba在应对长时间序列数据处理时展现出三倍的效率增长,能够更加有效地管理大规模信息流。
  • 大规模数据处理利用单一GPUJamba能在单一GPU上管理多达140K的上下文量,这极大地提升了模型的可用性及部署时的灵活度。
  • 公开授权权限Jamba的权重在Apache 2.0许可证下被公开发布,这允许研究人员与开发人员自由地利用、调整及改进该模型,极大地推动了技术和创意的交流与发展。
  • 整合NVIDIA API功能Jamba将以NVIDIA NIM推理微服务的形式出现在NVIDIA的API目录里,让企业的开发人员能够方便地通过NVIDIA AI Enterprise软件套件来部署使用Jamba模型。
  • 改进的混合专家层Jamba通过在混合架构中采用MoE(混合专家)层,并在推断过程中仅启用部分参数,从而提升了其模型的工作效率与表现力。

Jamba的系统结构

Jamba 的设计采用了块与层级的方式,实现了对Mamba SSM及Transformer架构的有效整合。在Jamba结构里,每一个构建模块都配备了一个注意力机制或Mamba组件,并在其后连接一个多层感知器(MLP),这样的组合使得每八层中就形成一个典型的Transformer层次比例。

Jamba的架构

另外,Jamba 运用了混合专家(MoE)系统来扩大其总参数规模,同时减少了实际推理过程中活跃参数的数目,在不显著增加计算负担的前提下提升了模型容量。AI21 实验室调整了 MoE 层和各专家组件的数量以优化性能,确保在单个 80GB 的 GPU 上能获得最佳的模型质量和处理速度,并保持足够的内存空间用于常规推理任务。

关于Jamba的表现分析

依据AI21 Labs的分析,Jamba模型在多个基准测试项目中表现优异,包括HellaSwag、ArcChallenge和MLLU等。它还在多种任务评估(涵盖语言理解、科学推理及常识推理等方面)中显示出与其同类顶级模型相当甚至更优的能力,对比对象如Llama2 13B、Llama2 70B、Gemma 7B以及Mixtral 8×7B。

Jamba的性能基准测试对比

© 版权声明

相关文章