5月10日讯,IBM于本月2日发布了其Granite 4.0模型系列中的最小版本——Granite 4.0 Tiny的预览版。
作为一款高效计算与低内存占用并重的语言模型,Granite 4.0 Tiny Preview在FP8精度下展现出色性能:运行5个128KB上下文窗口的并发对话仅需12GB显存。这使得它能够兼容市售329美元(约合人民币2383元)的英伟达GeForce RTX 3060 12GB显卡,极大降低了使用门槛。
尽管目前处于预览阶段,Granite 4.0 Tiny在训练数据量上已展现出显著优势。其规划中的训练Token数为15T,但当前版本仅基于2.5T数据进行训练,却能实现与基于12T Token的Granite 3.3 2B Instruct模型相当的性能水平。更值得关注的是,在处理128KB上下文窗口和16个并发会话时,其内存占用较前代降低了约72%。这一优化使其有望在最终版本中达到与Granite 3.3 8B Instruct持平的性能表现。
从架构设计来看,Granite 4.0 Tiny Preview采用了创新的混合Mamba-2/Transformer结构,这种设计有效兼顾了计算速度与模型精度。通过优化内存使用效率,该模型在性能上几乎未作出明显妥协。
目前,Granite 4.0 Tiny的预览版本已可通过Hugging Face平台以标准Apache 2.0许可证获取。IBM计划在今年夏季正式发布Granite 4.0系列中的Tiny、Small和Medium三个版本,进一步推动大语言模型的普及与应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。