Molmo 72B – 基于Qwen2-72B的一款开源多模态人工智能模型，性能领先Llama 3.2

AI工具1年前 (2025)发布 ainav

257 0 0

Molmo 72B指的是什么？

Molmo 72B是艾伦人工智能研究所（Ai2）开发的一款开放源代码多模态人工智能模型，专长于图像与文本数据的处理及解析。该模型基于Qwen2-72B架构，并采用OpenAI的CLIP作为其视觉编码组件。在各类学术评测中，Molmo 72B表现出色，超越了如Llama 3.2 90B等众多竞争对手。此款人工智能能够完成图像描述和视觉问答等多种任务，并且具备理解和操作用户界面的能力。通过发布Molmo 72B，艾伦研究所进一步促进了开源AI技术的发展，为研究者与开发者提供了强大的工具支持。

Molmo 72B的核心特性

图片内容解析依据提供的图片信息创建详尽的文字说明。
关于图像提问回答（IQR）能够解读有关图片的疑问，并给出精确的回答。
文件解析能够解读并掌握图片内包含的文本数据，例如菜单或统计图等内容。
多种形态互动通过融合图片与文字信息，创造出更为多元的互动感受。
用户体验互动能够辨识并解析诸如按钮与链接之类的用户界面组件。

Molmo 72B的运作机制

多种模式结构Molmo 72B集成视觉与语言处理技术，运用视觉编码器（例如CLIP）解析图片信息，并借助语言模型（比如Qwen2-72B）来分析文字内容。
高水准的培训资料通过采用语音为基础的图像说明生成技术，搜集大量的高品质图象与文字配对资料，以优化模型的学习成效。
前沿的模型培育该模型经历了几个不同的培训阶段，涵盖了初步训练、跨模式初步训练以及基于监督的学习调整。
评价与性能测试经过多项学术标准测试的评价，并借助大规模的人类评测来检验模型的表现及用户的喜好。
模型的不同版本Molmo系列涵盖了多种尺寸的模型，以满足多样化的应用场景及计算能力的要求。