Granite 3.2 – IBM 开源的多模态系列 AI 模型

181 0 0

Granite 3.2是什么

Granite 3.2 是IBM开源的多模态AI模型系列，具备强大的推理、视觉理解和预测能力。Granite 3.2包含多个版本， Granite 3.2 Instruct 提供实验性链式推理能力，显著提升复杂指令执行性能；Granite Vision 3.2 2B 是首个视觉语言模型，专注于文档理解，性能媲美更大规模模型。Granite 3.2 引入稀疏嵌入模型和更高效的守护模型（Guardian），优化资源利用和安全性。

Granite 3.2的主要功能

推理能力：Granite 3.2 Instruct提供增强的推理能力，支持复杂指令的执行。
多模态理解：Granite Vision 3.2 2B是多模态视觉语言模型，专注于文档理解，性能与比其大五倍的模型相当。
安全监控：Granite Guardian 3.2是安全监控模型，用在检测输入和输出中的风险。

Granite 3.2的技术原理

链式推理：引入“逐步思考”的提示工程（如“think step by step”），显著提升模型在逻辑推理任务中的表现。推理过程基于 API 参数开关，避免不必要的计算资源浪费。
多模态融合：Granite Vision 3.2 2B 是基于 Transformer 架构的多模态模型，结合视觉和文本输入。用专门的文档理解数据集（如 DocFM）进行指令调优，优化模型对文档和图表的理解能力。
推理扩展技术：增加推理时的计算资源（而非模型大小），提升推理性能。用强化学习（RL）框架优化模型的“思考过程”，在数学推理等任务中表现优异。
稀疏嵌入：与传统的密集嵌入不同，稀疏嵌入的每个维度直接对应模型词汇表中的一个词，可解释性强。适用于短文本检索和匹配任务，性能优于或等于传统的密集嵌入模型。
时间序列预测技术：用轻量级的频率前缀调整（Frequency Prefix Tuning）技术，让模型快速适应不同频率的输入数据。提供多种上下文长度和预测范围的模型变体，优化不同时间序列任务的性能。
安全监控与置信度评估：Granite Guardian 3.2 用强化学习优化风险检测能力，引入“表达置信度”功能，提供更细致的风险评估。基于模型剪枝和优化，降低推理成本和内存占用。

Granite 3.2的项目地址

项目官网：https://www.ibm.com/new/announcements/ibm-granite-3-2
HuggingFace模型库：https://huggingface.co/collections/ibm-granite/granite-32-language-models