PUMA – 融合多级策略的综合性多模态大型语言模型

AI工具1年前 (2025)发布 ainav

232 0 0

PUMA代表的是什么？

PUMA是一款先进的多模态大型语言模型（MLLM），专为整合多种粒度的视觉特征以统一和强化图像生成与理解任务而设计。该模型能够应对从文本到图像转换、详尽的图片编辑等多样化视觉作业，适用于各类细节需求。通过运用多模态预训练及微调技术，PUMA在广泛的文图生成、图形修饰、条件性图像创造以及视觉语言解析等领域展现了顶尖的能力水平。该项目于2024年10月进行了更新，并仍在持续发展中，由香港中文大学MMLab、香港大学MMLab、商汤科技、上海人工智能实验室及清华大学的研究人员联合开发。PUMA致力于推进AI在视觉与语言结合领域的前沿探索，为多模态AI的未来发展提供了一种灵活且强大的方案。

PUMA的核心特性

多样的文字转化为图片生成PUMA能够依据文字描述创造多样化的高品质图片，通过强化粗粒度视觉特性来提升其创意水平和一致性能。
图片处理PUMA通过利用精细的图像特性来进行精准的图片修改工作，如增加或删除元素以及变换样式，并确保原图的真实性得以保留。
基于条件的图像创造PUMA在根据特定条件生成图像方面表现出色，例如将轮廓转换为完整图片、进行图像修复或是上色处理，始终保证输出精准并契合场景。
多层次视觉解析PUMA利用五种不同程度细节的图像表现形式及其相匹配的解码技术，实现了从精准还原图像到依据语义指导创作的一系列视觉重构功能。

PUMA采用的技术机制

多种层次的图像编码PUMA通过使用图像编码器来分析输入的图片，并从中抽取不同层次的视觉特性，这些特性范围从小细节到大轮廓不等，从而为其创建多样且可控制的图像奠定了基石。
基于回溯的多语言机器学习模型PUMA这款先进的自回归多模态大规模语言模型具备处理与创建多样化的文本及图像元素的能力，能够满足各种应用场景的要求。
分布式解码器PUMA采用了一种扩散式解码器，该解码器配备了一系列适应各种细节级别的组件，用于实现图像的视觉重建，并能够提供高度可定制或是极具变化的视觉效果。
双步训练方法PUMA通过采用多元化的预训练技术和针对具体任务的精细调整，提升了其在多项工作负载下的表现能力，确保了该模型在各种视觉相关作业中都能达到优异的效果。