Bamba-9B是什么
Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B在推理时相较于标准变换器模型展现出2.5倍的吞吐量提升和2倍的延迟加速。模型训练使用2.2万亿个token,进一步验证新兴架构的潜力,在保持与最先进的变换器模型竞争的同时,提供更高的推理效率。
Bamba-9B的主要功能
- 提高推理效率:Bamba-9B设计的主要目标是提高大型语言模型在推理时的效率,特别是在处理长文本时的内存带宽瓶颈。
- 吞吐量和延迟优化:相比于标准变换器模型,Bamba-9B在推理时展示2.5倍的吞吐量提升和2倍的延迟加速。
- 开放数据集训练:Bamba-9B完全在开放数据集上训练,有助于社区进行透明度和可复制性的实验。
- 多平台支持:Bamba-9B支持在多个开源平台使用,如
transformers
、vLLM
、TRL
和llama.cpp
。
Bamba-9B的技术原理
- 混合Mamba2架构:基于Mamba2架构,一种新兴的架构,使KV-cache大小恒定消除内存带宽瓶颈。
- 恒定KV-cache:KV-cache所需的内存量随上下文长度增加而增加,而Mamba2架构保持KV-cache大小不变解决这一问题。
- 两阶段训练方法:采用两阶段训练方法,第一阶段用Dolma v1.7数据集进行训练,第二阶段用Fineweb-edu和Cosmopedia等高质量数据集进行额外训练。
- 数据加载器:推出一个分布式状态无关的数据加载器,支持大规模分布式训练,并与Torch Titan集成。
- 量化技术:支持模型量化,基于llm-compressor将模型量化到
fp8
,减少模型大小提高推理速度,同时保持准确性。 - 上下文长度扩展:Bamba-9B正在探索长上下文长度扩展的方法,如将LongRope应用于全注意力层,处理更长的上下文。
Bamba-9B的项目地址
- GitHub仓库:https://github.com/foundation-model-stack/bamba
- HuggingFace模型库:https://huggingface.co/collections/ibm-fms/bamba