苹果发布全能视觉AI模型 UniGen 1.5:看图修图绘图三合一

AI资讯2个月前发布 ainav
44 0

近日,科技媒体9to5Mac报道指出,苹果研究团队在多模态AI领域取得重要进展,成功推出全新模型UniGen 1.5。

与传统方案依赖多个独立模型处理不同任务的做法不同,UniGen 1.5实现了重大突破——构建了一个统一的多模态框架。该框架使单一AI系统能够同时完成图像理解、生成和编辑三大核心功能。这种创新架构使得模型能够充分发挥其强大的图像理解能力,反哺生成效果,从而实现更精准的视觉输出。

在图像编辑领域,如何准确捕捉用户的复杂修改指令一直是技术难点。针对这一问题,苹果团队开创性地引入了”编辑指令对齐”后训练阶段。

这项创新方法要求模型先根据原始图像和用户指令生成目标图像的详细文本描述,而非直接进行图像修改。这种”先想后画”的中间步骤迫使模型在执行最终图像生成前,必须深入理解和内化用户的编辑意图,从而显著提升了修改的准确性和自然度。

苹果发布全能视觉AI模型 UniGen 1.5:看图修图绘图三合一

这种中间步骤使得模型在生成图像前能够更准确理解预期的编辑内容。

除了指令对齐技术,UniGen 1.5还在强化学习领域实现了重要突破。研究团队设计了一套统一的奖励机制,可同时应用于图像生成和编辑任务的训练过程。

这一创新解决了此前因编辑任务跨度大而难以实现统一质量评估的问题。通过一致的质量标准,显著提升了模型在处理不同视觉任务时的一致性和稳定性。

苹果发布全能视觉AI模型 UniGen 1.5:看图修图绘图三合一

UniGen 1.5在文本转图像生成和编辑功能方面的部分示例

苹果发布全能视觉AI模型 UniGen 1.5:看图修图绘图三合一

UniGen 1.5在文本转图像生成和编辑功能方面的部分示例

在多项权威测试中,UniGen 1.5展现了卓越的性能。根据最新测试结果,在GenEval和DPG-Bench评估中分别取得了0.89和86.83的优异成绩,远超现有方法如BAGEL和BLIP3o。

特别是在图像编辑专项测试ImgEdit中,其综合得分达到4.31,不仅超越了OminiGen2等开源模型,更与GPT-Image-1等商业闭源模型持平。

尽管整体表现令人瞩目,UniGen 1.5仍面临一些局限性。研究团队在论文中指出,由于采用离散去标记器控制图像结构,在处理图片内文字时偶尔会出现错误。

苹果发布全能视觉AI模型 UniGen 1.5:看图修图绘图三合一

图A展示了UniGen 1.5在文本转图像生成和编辑任务中的失败案例。以上图片来自苹果论文。

此外,在处理部分复杂编辑场景时,模型可能会出现主体特征漂移现象,例如猫毛发纹理或鸟类羽毛颜色的异常变化。这些问题将是未来优化的重点方向。

附上参考地址

  • UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

© 版权声明

相关文章