苹果自研多模态AI模型Manzano:性能媲美GPT-4与谷歌模型

AI资讯2个月前发布 ainav
49 0

9月27日消息,苹果公司正在开发一款名为Manzano的新图像模型,该模型旨在同时具备强大的图像理解和生成能力。

尽管Manzano尚未正式发布,且目前仅有一篇预印本论文(作者多为华人学者,其中包括已转投Meta的庞若鸣),但其部分低分辨率图像样例已经对外展示。这些示例涵盖了复杂的提示场景,展示了模型的潜力。

苹果自研多模态AI模型Manzano:性能媲美GPT-4与谷歌模型

苹果公司指出,长期以来,实现图像理解与生成的双重功能一直是技术难题。大多数开源模型在综合性能上不及商业系统(如OpenAI和谷歌的产品)。

通过与DeepSeek Janus Pro等其他AI模型的对比测试,Manzano展现出不逊于OpenAI GPT-4o和谷歌Gemini 2.5 Flash Image Generation的能力。

苹果自研多模态AI模型Manzano:性能媲美GPT-4与谷歌模型

苹果分析发现,开源模型在图像处理上往往顾此失彼:要么专注于图像理解,要么擅长图像生成。而商业系统则通常能够实现两者的结合。特别是在需要大量文本处理的任务(如文档阅读和图表解读)中,现有开源模型的表现并不理想。

针对这一问题,Manzano采用了创新的混合图像分词器设计。该模型的共享编码器可以输出两种类型的标记:连续标记用于图像理解(以浮点数形式表达),离散标记则用于图像生成(基于固定类别划分)。由于这两种标记均来自同一个编码器,因此在执行不同任务时产生的冲突显著减少。

苹果自研多模态AI模型Manzano:性能媲美GPT-4与谷歌模型

Manzano的整体架构由三部分组成:混合分词器、统一语言模型和独立的图像解码器。其中,解码器有三个版本,参数规模分别为9亿、17.5亿和35.2亿,支持从256像素到2048像素的分辨率。

在训练过程中,Manzano使用了总计1.6万亿标记的数据集。这些数据包括23亿对图像-文本样本(来自公开和内部数据)以及10亿对文本-图像样本。部分训练数据采用合成生成技术(如DALL-E3和ShareGPT-4o)创建。

在内部测试中,Manzano在多个基准测试中表现优异,尤其在图表分析和文档解读等文字密集型任务中,300亿参数版本的表现尤为突出。测试还显示,模型性能随着规模的提升而持续改善:例如,30亿参数版本在部分任务中的得分比最小模型高出10分以上。

苹果自研多模态AI模型Manzano:性能媲美GPT-4与谷歌模型

在与专业化系统的对比中,Manzano的表现差距微小。例如,在30亿参数版本下,其得分与专业系统之间的差距不到1分。此外,在图像生成测试中,Manzano也达到了顶尖水平,能够执行复杂指令、风格迁移、图像叠加和深度估计等任务。

苹果公司认为,Manzano为现有模型提供了一个强有力的替代方案。其模块化设计允许各个组件独立更新,并且可以借鉴不同研究领域的方法进行训练。这使得该模型在推动未来多模态AI的发展方面具有巨大潜力。

不过,尽管Manzano展示了显著的技术进步,但苹果的基础模型整体仍落后于行业领先者。即便即将推出新的端侧AI框架,苹果仍计划在未来的iOS 26版本中引入OpenAI的GPT-5。Manzano的成功能否最终减少对第三方模型的依赖,还有待未来版本的进一步验证。

© 版权声明

相关文章