AI21开放的首款依托Mamba框架构建的大规模模型——Jamba

156 0 0

Jamba指的是什么？

Jamba是AI21 Labs开发的一款采用Mamba架构的大规模语言生成模型，当前大多数大型模型（例如GPT、Gemini 和 Llama）均依赖于Transformer框架。相比之下，Jamba巧妙融合了Mamba结构化状态空间模型(SSM)与经典的Transformer设计，从而实现了高性能输出、高处理速度和较小的内存需求等优势并存的局面。通过这种混合架构的设计思路，该模型能够支持长达256K字符长度的文本窗口，在应对长篇幅内容时展现出更强的数据吞吐能力和工作效率。

Jamba 在Apache 2.0开源许可证下以开放权重的形式公开发布，旨在促进社区的研究与优化工作。当前，Jamba 主要作为研究工具提供，并不保证其具备商业应用价值。预计在未来几周内，AI21 Labs 将推出一个更加安全且经过微调的版本。

访问Jamba的官方网站入口

官方网站地址：https://www.ai21.com/jamba
官方网站发布文章宣告新品Jamba的推出：https://www.ai21.com/blog/introducing-jamba
访问AI21实验室的Jamba-v0.1模型，请前往Hugging Face平台：https://huggingface.co/ai21labs/Jamba-v0.1

Jamba的核心特点

结合了SSM与Transformer的融合架构Jamba作为首款融合了Mamba SSM（结构化状态空间模型）与Transformer框架的量产型模型，其独特的复合架构设计目的是为了增强系统的效能和运行效率。
较大的上下文范围Jamba具备了256K的上下文范围，让其有能力应对更为延长的文字序列，特别适合执行更加复杂多变的语言处理工作。
高性能处理能力与同样大小的Mixtral 8x7B模型相比，Jamba在应对长时间序列数据处理时展现出三倍的效率增长，能够更加有效地管理大规模信息流。
大规模数据处理利用单一GPUJamba能在单一GPU上管理多达140K的上下文量，这极大地提升了模型的可用性及部署时的灵活度。
公开授权权限Jamba的权重在Apache 2.0许可证下被公开发布，这允许研究人员与开发人员自由地利用、调整及改进该模型，极大地推动了技术和创意的交流与发展。
整合NVIDIA API功能Jamba将以NVIDIA NIM推理微服务的形式出现在NVIDIA的API目录里，让企业的开发人员能够方便地通过NVIDIA AI Enterprise软件套件来部署使用Jamba模型。
改进的混合专家层Jamba通过在混合架构中采用MoE（混合专家）层，并在推断过程中仅启用部分参数，从而提升了其模型的工作效率与表现力。

Jamba的系统结构

Jamba 的设计采用了块与层级的方式，实现了对Mamba SSM及Transformer架构的有效整合。在Jamba结构里，每一个构建模块都配备了一个注意力机制或Mamba组件，并在其后连接一个多层感知器(MLP)，这样的组合使得每八层中就形成一个典型的Transformer层次比例。

另外，Jamba 运用了混合专家（MoE）系统来扩大其总参数规模，同时减少了实际推理过程中活跃参数的数目，在不显著增加计算负担的前提下提升了模型容量。AI21 实验室调整了 MoE 层和各专家组件的数量以优化性能，确保在单个 80GB 的 GPU 上能获得最佳的模型质量和处理速度，并保持足够的内存空间用于常规推理任务。

关于Jamba的表现分析

依据AI21 Labs的分析，Jamba模型在多个基准测试项目中表现优异，包括HellaSwag、ArcChallenge和MLLU等。它还在多种任务评估（涵盖语言理解、科学推理及常识推理等方面）中显示出与其同类顶级模型相当甚至更优的能力，对比对象如Llama2 13B、Llama2 70B、Gemma 7B以及Mixtral 8×7B。

# AI工具