美团开源图像生成模型 LongCat-Image:编辑性能领先全球

AI资讯2个月前发布 ainav
66 0

12月8日,美团LongCat团队宣布开源其最新图像生成模型——LongCat-Image。该模型通过创新的架构设计、系统的训练策略和高效的数据工程,在仅60亿参数规模下实现了接近更大尺寸模型的效果,尤其在文生图和图像编辑领域展现出色性能。

据官方介绍:

LongCat-Image采用统一架构设计,同时支持文生图与图像编辑任务。通过渐进式学习策略,在紧凑的6B参数规模下实现了精准的指令遵循能力、高质量的图像生成和强大的中文文字渲染效果。特别是在单图编辑的可控性以及汉字覆盖度方面表现突出。

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

模型架构图

亮点一:图像编辑高度可控

在GEdit-Bench和ImgEdit-Bench等权威评测中,LongCat-Image达到开源领域最优水平。其突破性源于独特的训练范式:基于文生图模型的中期训练阶段进行初始化,并采用指令编辑与文生图联合学习机制,最大化利用文生图的知识同时保持编辑任务的多样性。通过预训练中的多源数据融合和指令改写策略,以及SFT阶段引入高质量人工标注数据,模型实现了编辑指令的理解能力、视觉一致性和泛化性的全面提升。

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

风格迁移与属性编辑对比图

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

结构编辑与构图编辑对比图

亮点二:中文文字生成精准覆盖

针对中文文本渲染这一技术难点,LongCat-Image通过多阶段课程学习策略实现了显著突破。在预训练阶段,基于千万级合成数据学习汉字字形,覆盖通用规范汉字表的全部8105个汉字;SFT阶段引入真实世界文本图像数据,提升字体和排版的泛化能力;RL阶段采用OCR与美学双奖励机制,进一步优化文字准确性和背景融合度。通过字符级编码处理提示中的指定文本,显著降低了模型负担并提升了学习效率。

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

美团开源图像生成模型 LongCat-Image:编辑性能领先全球

人类主观评分(MOS)对比和并列对比评估胜率(SBS)图

为了推动技术进步,LongCat团队全面开源模型代码和训练数据,包括文生图的多阶段模型(Mid-training、Post-training)和图像编辑模型。我们欢迎开发者访问以下链接体验并参与共建:

资源链接:

Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Image

GitHub:

https://github.com/meituan-longcat/LongCat-Image

我们相信,技术的未来需要开源社区的共同智慧。期待与开发者携手探索视觉生成技术的无限可能。

© 版权声明

相关文章