12GB显存支持128K上下文及5并发会话 IBM预览Granite 4.0 Tiny模型

105 0 0

5月10日讯，IBM于本月2日发布了其Granite 4.0模型系列中的最小版本——Granite 4.0 Tiny的预览版。

作为一款高效计算与低内存占用并重的语言模型，Granite 4.0 Tiny Preview在FP8精度下展现出色性能：运行5个128KB上下文窗口的并发对话仅需12GB显存。这使得它能够兼容市售329美元（约合人民币2383元）的英伟达GeForce RTX 3060 12GB显卡，极大降低了使用门槛。

尽管目前处于预览阶段，Granite 4.0 Tiny在训练数据量上已展现出显著优势。其规划中的训练Token数为15T，但当前版本仅基于2.5T数据进行训练，却能实现与基于12T Token的Granite 3.3 2B Instruct模型相当的性能水平。更值得关注的是，在处理128KB上下文窗口和16个并发会话时，其内存占用较前代降低了约72%。这一优化使其有望在最终版本中达到与Granite 3.3 8B Instruct持平的性能表现。

从架构设计来看，Granite 4.0 Tiny Preview采用了创新的混合Mamba-2/Transformer结构，这种设计有效兼顾了计算速度与模型精度。通过优化内存使用效率，该模型在性能上几乎未作出明显妥协。

目前，Granite 4.0 Tiny的预览版本已可通过Hugging Face平台以标准Apache 2.0许可证获取。IBM计划在今年夏季正式发布Granite 4.0系列中的Tiny、Small和Medium三个版本，进一步推动大语言模型的普及与应用。

# AI资讯