苹果发布的增强型多模态大模型 MM1.5

AI工具2年前 (2025)发布 ainav

326 0 0

MM1.5代表的是什么？

苹果公司最新发布了名为MM1.5的大型语言模型，该模型能够显著提升文本与图像理解、视觉指代及定位以及对多个图像进行推理的能力。其设计采用了以数据为中心的方法，并通过大规模预训练、持续使用高分辨率OCR数据进行优化预训练和调整后的视觉指令微调，实现了从10亿到300亿参数规模的高性能表现。MM1.5模型包括了密集型版本与MoE变体，证明了即使是较小规模的模型，在经过精心策划的数据集和高效的训练策略下也能表现出色。此外，还特别针对视频理解及移动用户界面的理解推出了专门优化的变体——MM1.5-Video和MM1.5-UI。通过实证研究深入探讨其训练流程与决策过程，为未来多模态人工智能技术的发展提供了宝贵的指导建议。

MM1.5的核心特性

图像中包含的大量信息的理解与解析MM1.5具备解析图片内文字信息及文字与图象间关联的能力。
视觉标识与位置确定该模型能够辨识图片里的具体物体，并能解析文字中提及的物品描述，例如，“那只红色的球”。
多个图片的逻辑推断MM1.5具备处理多幅图片的能力，并能够解析这些图片间的关联性及执行逻辑推断。
视像解析依托于MM1.5-Video的变种版本，该模型具备解析视频信息的能力，涵盖动作识别、事件分析及时间顺序的理解。
对手机用户界面的解读MM1.5-UI变异版本特别设计用于提升在移动应用程序界面上的识别、理解和交互能力。

MM1.5的核心技术机制

高级机器学习技术与文本分析方法通过整合深度学习驱动的视觉分析技术和自然语言处理方法，该系统能够解读图像信息并创建相应的文字描述。
位置标记与图像关注模型利用坐标标记来识别图像内的目标，并通过视觉焦点技术着重分析图片的关键部分。
图片划分与多元数据整合把图片划分为若干区域，并结合文字数据，实现对多个图片的综合分析。
视频图像抽样与时序评估通过对视频中的图像帧实施采样，并考察这些帧在时间序列上的相互联系，从而解析和把握视频所展现的内容。
识别用户界面组件利用图像识别技术来辨识移动界面中的各种组件，比如按钮与图标。

MM1.5项目的网址

arXiv科技文章本文的研究成果可在如下链接中找到：[论文预印本] https://arxiv.org/pdf/2409.20566v1，该版本提供了详细的方法论和研究发现。

MM1.5的使用场合

对图片与影像的解析能力MM1.5具备理解与解析图片和视频信息的能力，适用于诸如图像标记、视频内容解读以及安全监控等多个领域。
图像查找在电子 commerce 或者数字化图书馆里，MM1.5 为用户提供了一种功能，使他们能够通过输入描述信息或是上传图片来进行目标商品和文件的检索。
驾车辅助与全自动驾控在汽车领域中，MM1.5被应用于解析和理解路况信息，并支持驾驶员作出行车决定。
智能化助理在使用智能手机和智能家居产品时，MM1.5能够实现更加流畅且直觉化的互动体验，精准解析用户的语言及文字命令。
教育与培养MM1.5作为一种教育辅助手段，助力学生们掌握难懂的知识点，并带来定制化的学习感受。

# AI工具