9月9日,腾讯正式对外宣布,其最新研发的混元图像模型2.1已全面开源。这一版本不仅支持原生2K分辨率的图像生成,还首次实现了对中英文双语原生输入的支持。
与此同时,腾讯还同步开源了另一款重要工具——PromptEnhancer文本改写模型。该模型能够显著提升用户prompt的质量和效果:当用户输入“画一只可爱的猫”时,它会自动补充更具体的描述,如“橘色短毛猫趴在格子桌,爪边放饼干,水彩风”。这种智能化的补全能力不仅支持中文,还能实现中英文双向转换。例如,用中文描述“画带‘Dream’的星空蛋糕”,也能精准生成符合预期的画面,有效避免“表达模糊”的问题。
作为此次升级的核心,混元图像模型2.1版本在多个维度实现了重要突破。首先是超长prompt支持:它能够处理长达1k tokens的复杂语义输入,并且支持多主体分别描述与精确生成。
Prompt示例:一幅由四个画格组成的卡通漫画,以2×2的网格形式排列,讲述了一只变色龙的难题…
在图像生成质量方面,混元图像模型2.1版本实现了更稳定的文字渲染和场景细节把控,显著减少了以往常见的文字错误与理解偏差问题。
Prompt示例:星空下,一个充满未来感的泳池…
此外,该模型还支持生成多种不同风格的作品,包括:
- 真实感人物
- 多样化漫画
- 精致的手办模型
Prompt示例:在酒馆外面…
混元图像模型2.1的主要技术亮点包括:
- 双通道文本编码器:同时采用通用和专门的文字编码器,显著提升了对场景描述、人物动作和细节需求的理解能力。
- VLM + 专家模型的结构化Caption技术:通过创新性引入OCR agent和IP RAG,弥补了传统VLM captioner在密集文本和世界知识描述方面的不足。
- 两阶段模型架构:
- 文生图模型:采用单双流网络架构,拥有17B的模型参数量。
- Refiner模型:使用类似图生图的条件生成结构,能有效减少图像畸形问题,并显著提升图像质感和清晰度。
- 两阶段强化后训练:通过SFT(策略梯度)和RL(强化学习)两个阶段的后训练优化,创新性引入高质量图片作为chosen样本,实现了模型效果的稳定提升。
- 高压缩率VAE技术:
- 32倍压缩率:大幅降低了dit模型的输入token数量,显著提升了训练和推理效率。
- 多分辨率Repa Loss:用于加速模型收敛速度。
- meanflow推理加速技术:
- 首次在工业级模型中实现:将推理步数从100步优化至8步,显著提升了蒸馏效果。
- PromptEnhancer文本改写模型:
- 首个系统化的工业级改写模型。
- 通过SFT(策略梯度)和GRPO训练显著提升了文本生成的图像语义质量。
- 提出了包含6大类、24个细粒度考点的AlignEvaluator奖励模型。
- 支持同时处理中英文改写任务。
如需了解更多详细信息或进行技术实验,可访问混元图像模型2.1的开源地址:
https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
© 版权声明
文章版权归作者所有,未经允许请勿转载。