腾讯混元发布的文生图扩散模型Hunyuan-DiT

120 0 0

混元DiT指的是什么？

腾讯混元团队发布的高性能文本转图像扩散Transformer模型——Hunyuan-DiT，具备精确的中英双语理解功能，并能依据文字描述产出多种分辨率的优质图片。该模型创新地整合了双语CLIP和多语言T5编码器技术，在经过精心构造的数据处理流程训练后，能够支持连续对话交互，并根据上下文环境生成和完善图像内容。特别是在中文文本转图方面，Hunyuan-DiT的表现处于开源软件领域的前沿位置。

混元DiT的核心作用

多语言文字转图片创作混元DiT具备依据中文和英文文本指示创造图像的能力，从而在跨越语言障碍的图像创作领域展现了广阔的应用前景。
精细的中文成分解析该模型专门对中国语言环境进行了改进，能够更准确地解析和创造与中华传统文明有关的内容，包括古典诗词、民族服装以及传统佳节等方面。
大规模文本管理技能允许输入多达256个令牌的文本，这使DiT能解析并创造与详尽长篇文字说明相符的图像。
多种大小的图片制作Hunyuan-DiT具备在多个尺码比率上创建高质影像的能力，能够适应从小型社交平台分享至大幅面印刷的各种应用需求。
多次交互与情境把握借助于与用户的多次交流互动，混元DiT能依据过往的对话内容及情境背景来创作并更新图片，这一过程提升了其交互体验和创意水平。
图片和文字之间具有高度的一致性。通过Hunyuan-DiT创建的图片在内容方面紧密匹配所给的文字说明，这保证了图片能精确地传达出文字中的含义及细节。
创造力和艺术表现力混元DiT不仅能创造普通的图片，还能解读文字中的创新元素，进而产出富有艺术感和想象力的视觉艺术品。

访问混元DiT的官方主页入口

官方网站地址：https://dit.hunyuan.tencent.com/
Tencent-Hunyuan开发的模型可在Hugging Face平台上找到：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
代码仓库地址：https://github.com/Tencent/HunyuanDiT
技术文档：https://github.tencentyun.com/HunyuanDiT/blob/main/asset/Tech_Report_Hunyuan_DiT_05140553.pdf

混元DiT的系统结构

双向文本编码器混元DiT整合了双语CLIP与多种语言的T5编码器，旨在提升其对输入文字的理解深度及编码效能。选择CLIP模型是鉴于它出色的图像-文本关联性能，而T5模型则因其卓越的多语言处理和文本解析能力被纳入其中。
变异自动编码器（VAE）通过运用预先训练好的变分自编码器（VAE）来把图片转换至一个维度较低的潜在空间中，这一过程有利于扩散模型掌握数据的分布特征。该变换所得到的VAE潜变量空间对于生成图像的质量具有关键性的影响。
传播模型利用扩散Transformer的概念，混元DiT采用扩散模型去捕捉数据的分布特性。此模型借助交叉注意力技术融合了文本条件和扩散过程。
改良后的创建工具相较于基准模型DiT，扩散Transformer引入了多项优化措施，其中包括采用自适应层规范化（AdaNorm）技术以增强对细致文本条件的应用效果。
地点编码混元DiT利用旋转位置嵌入（RoPE）技术同步处理绝对位置与相对位置的依赖关系，并且能够兼容多种分辨率下的训练及推断工作。
具备多种数据处理能力的高级语言模型（MDHM）针对图像与文字配对的初始描述进行优化重组，旨在提升数据的质量水平。通过微调后的MLLM可以创作出融合了广泛世界知识的系统化标题。
数据分析流程涵盖数据的采集、解析、分类与运用，并借助名为“数据车队”的反复流程验证新增资料的可靠性。
培训后期的性能提升为了减少部署的成本，在推理过程中实施了多项优化措施，涵盖ONNX图形的改良、核心部分的精进以及运算的整合等方面。

混元DiT与其它文本转图像模型之间的对比分析

为细致对比HunyuanDiT和其他模型的内容创作效能，项目组设计了一套涵盖四个评价指标的评测体系，并邀请了逾五十位专家参与打分工作。这些维度具体涉及图文统一性评估、去除人工智能瑕疵检测、主旨明确程度分析以及美感评判。

算法	开放源代码	图文相符率(%)	消除人工智能影像误差(%)	主题明确性(%)	美感评价(%)	总体评分(%)
SDXL升级版	当然，请提供您希望我改写的文本内容。	六十四点三	六十点六	九十一点一	七十六点三	四十二点七
PixelArt-Core	好的，请提供需要改写的具体内容。	六十八点三	六十点九	九十三点二	七十七点五	四十五点五
游乐场版本2.5	好的，请提供需要改写的具体内容。	71.90	七十点八	九十四点九	八十三点三	五十四点三
SD三版	为了完成您的请求，我需要具体的内容来进行伪原创的改写。请您提供需要修改的文字部分。	七十七点一	六十九点三	九十四点六	八十二点五	五十六点七
Midjourney 版本6	由于原文未提供具体内容，无法完成相应要求的伪原创改写任务。若能提供具体段落或句子，则可以更好地帮助您调整表述形式以达到相似却不重复的效果。请给出需要处理的文字内容。	七十三点五	八十点二	九十三点五	八十七点二	六十三点三
DALL·E 三代	为了完成您的请求，我需要知道具体的内容是什么。请您提供需要进行伪原创改写的文字或段落。	83.9分	八十点三	九十六点五	八十九点四	七十一点零
Hunyuan地图技术	当然，请提供您希望我改写的具体内容。	七十四点二	七十四点三	九十五点四	八十六点六	五十九点零