Jamba指的是什么?
Jamba是AI21 Labs开发的一款采用Mamba架构的大规模语言生成模型,当前大多数大型模型(例如GPT、Gemini 和 Llama)均依赖于Transformer框架。相比之下,Jamba巧妙融合了Mamba结构化状态空间模型(SSM)与经典的Transformer设计,从而实现了高性能输出、高处理速度和较小的内存需求等优势并存的局面。通过这种混合架构的设计思路,该模型能够支持长达256K字符长度的文本窗口,在应对长篇幅内容时展现出更强的数据吞吐能力和工作效率。
Jamba 在Apache 2.0开源许可证下以开放权重的形式公开发布,旨在促进社区的研究与优化工作。当前,Jamba 主要作为研究工具提供,并不保证其具备商业应用价值。预计在未来几周内,AI21 Labs 将推出一个更加安全且经过微调的版本。
访问Jamba的官方网站入口
- 官方网站地址:https://www.ai21.com/jamba
- 官方网站发布文章宣告新品Jamba的推出:https://www.ai21.com/blog/introducing-jamba
- 访问AI21实验室的Jamba-v0.1模型,请前往Hugging Face平台:https://huggingface.co/ai21labs/Jamba-v0.1
Jamba的核心特点
- 结合了SSM与Transformer的融合架构Jamba作为首款融合了Mamba SSM(结构化状态空间模型)与Transformer框架的量产型模型,其独特的复合架构设计目的是为了增强系统的效能和运行效率。
- 较大的上下文范围Jamba具备了256K的上下文范围,让其有能力应对更为延长的文字序列,特别适合执行更加复杂多变的语言处理工作。
- 高性能处理能力与同样大小的Mixtral 8x7B模型相比,Jamba在应对长时间序列数据处理时展现出三倍的效率增长,能够更加有效地管理大规模信息流。
- 大规模数据处理利用单一GPUJamba能在单一GPU上管理多达140K的上下文量,这极大地提升了模型的可用性及部署时的灵活度。
- 公开授权权限Jamba的权重在Apache 2.0许可证下被公开发布,这允许研究人员与开发人员自由地利用、调整及改进该模型,极大地推动了技术和创意的交流与发展。
- 整合NVIDIA API功能Jamba将以NVIDIA NIM推理微服务的形式出现在NVIDIA的API目录里,让企业的开发人员能够方便地通过NVIDIA AI Enterprise软件套件来部署使用Jamba模型。
- 改进的混合专家层Jamba通过在混合架构中采用MoE(混合专家)层,并在推断过程中仅启用部分参数,从而提升了其模型的工作效率与表现力。
Jamba的系统结构
Jamba 的设计采用了块与层级的方式,实现了对Mamba SSM及Transformer架构的有效整合。在Jamba结构里,每一个构建模块都配备了一个注意力机制或Mamba组件,并在其后连接一个多层感知器(MLP),这样的组合使得每八层中就形成一个典型的Transformer层次比例。
另外,Jamba 运用了混合专家(MoE)系统来扩大其总参数规模,同时减少了实际推理过程中活跃参数的数目,在不显著增加计算负担的前提下提升了模型容量。AI21 实验室调整了 MoE 层和各专家组件的数量以优化性能,确保在单个 80GB 的 GPU 上能获得最佳的模型质量和处理速度,并保持足够的内存空间用于常规推理任务。
关于Jamba的表现分析
依据AI21 Labs的分析,Jamba模型在多个基准测试项目中表现优异,包括HellaSwag、ArcChallenge和MLLU等。它还在多种任务评估(涵盖语言理解、科学推理及常识推理等方面)中显示出与其同类顶级模型相当甚至更优的能力,对比对象如Llama2 13B、Llama2 70B、Gemma 7B以及Mixtral 8×7B。