IBM 发布的 Granite 3.1 版本语言模型

254 0 0

Granite 3.1指的是什么

IBM最近发布了其最新的语言模型系列——Granite 3.1，该系列以其卓越的表现力和扩展的上下文处理范围而著称。Granite 3.1包含四种不同的规模及两种架构类型：密集型2B与8B参数版本，整个训练过程使用了高达12万亿个token的数据集。同时存在专家混合MoE模型变体，包括稀疏配置下的1B和3B MoE模型，这些分别激活4亿和8亿参数，并基于总计10万亿个token的培训数据构建而成。Granite 3.1能够支持长达128K令牌长度的上下文链路，使其更加适合处理复杂多变的任务及文本内容。新系列还加入了覆盖十二种语言的新嵌入模型，从而强化了其在多种语言环境下的应用能力。此外，Granite Guardian 3.1特别增强了功能调用中的幻觉检测性能，并提高了对外部工具使用过程的监控和管理能力。

Granite 3.1的核心特性

增加的前后文视野通过扩大至128K令牌的上下文窗口，该模型能够接收更大规模的数据输入，实现更为持久连贯的互动对话，并且能在每次响应中包含更加丰富的信息内容。
创新的融入型模型发布了一组旨在提升搜索效果的Granite嵌入式模型系列，该系列包含了参数量介于30M至278M之间的多种规模版本，并且能够覆盖包括12种语言在内的多语种应用需求。
识别函数调用的虚构情况在Guardian 3.1中，8B与2B模型引入了新的幻觉检测特性，提升了对工具调用型代理的管控水平及可观测性能。

Granite 3.1的运作机制

大规模的语言模型（MLM）依托于大规模的语言模型开发，并借助深度学习与自然语言处理技术进行培养，实现对自然语言文本的理解与创造。
转换器结构（Transformer Structure）利用转换器结构，捕获文本里的远距离相关性。
文本背景区间（Text Background Range）通过将上下文窗口扩大到128K令牌，该模型能够并行处理更多信息，并支持分析较长文本及执行更为复杂的工作。
多种语言兼容（Multiple Languages Compatibility）该模型经过训练能够辨识与解析多国语言，并且可以处理包括12种不同的语言在内的文本信息。

Granite 3.1的工程链接

官方网站项目：IBM Granite 3.1版本
Git代码库：可在https://github.com/ibm-granite/granite-3.1找到相关资源。
HuggingFace的模型集合访问此链接以查看IBM Granite 31的集合页面: https://huggingface.co/collections/ibm-granite/granite-31