腾讯混元发布的文生图扩散模型Hunyuan-DiT

AI工具 2个月前 ainav
64 0

混元DiT指的是什么?

腾讯混元团队发布的高性能文本转图像扩散Transformer模型——Hunyuan-DiT,具备精确的中英双语理解功能,并能依据文字描述产出多种分辨率的优质图片。该模型创新地整合了双语CLIP和多语言T5编码器技术,在经过精心构造的数据处理流程训练后,能够支持连续对话交互,并根据上下文环境生成和完善图像内容。特别是在中文文本转图方面,Hunyuan-DiT的表现处于开源软件领域的前沿位置。

混元DiT

混元DiT的核心作用

  • 多语言文字转图片创作混元DiT具备依据中文和英文文本指示创造图像的能力,从而在跨越语言障碍的图像创作领域展现了广阔的应用前景。
  • 精细的中文成分解析该模型专门对中国语言环境进行了改进,能够更准确地解析和创造与中华传统文明有关的内容,包括古典诗词、民族服装以及传统佳节等方面。
  • 大规模文本管理技能允许输入多达256个令牌的文本,这使DiT能解析并创造与详尽长篇文字说明相符的图像。
  • 多种大小的图片制作Hunyuan-DiT具备在多个尺码比率上创建高质影像的能力,能够适应从小型社交平台分享至大幅面印刷的各种应用需求。
  • 多次交互与情境把握借助于与用户的多次交流互动,混元DiT能依据过往的对话内容及情境背景来创作并更新图片,这一过程提升了其交互体验和创意水平。
  • 图片和文字之间具有高度的一致性。通过Hunyuan-DiT创建的图片在内容方面紧密匹配所给的文字说明,这保证了图片能精确地传达出文字中的含义及细节。
  • 创造力和艺术表现力混元DiT不仅能创造普通的图片,还能解读文字中的创新元素,进而产出富有艺术感和想象力的视觉艺术品。

混元DiT生成的图片

访问混元DiT的官方主页入口

  • 官方网站地址:https://dit.hunyuan.tencent.com/
  • Tencent-Hunyuan开发的模型可在Hugging Face平台上找到:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
  • 代码仓库地址:https://github.com/Tencent/HunyuanDiT
  • 技术文档:https://github.tencentyun.com/HunyuanDiT/blob/main/asset/Tech_Report_Hunyuan_DiT_05140553.pdf

混元DiT的系统结构

混元DiT的架构

  • 双向文本编码器混元DiT整合了双语CLIP与多种语言的T5编码器,旨在提升其对输入文字的理解深度及编码效能。选择CLIP模型是鉴于它出色的图像-文本关联性能,而T5模型则因其卓越的多语言处理和文本解析能力被纳入其中。
  • 变异自动编码器(VAE)通过运用预先训练好的变分自编码器(VAE)来把图片转换至一个维度较低的潜在空间中,这一过程有利于扩散模型掌握数据的分布特征。该变换所得到的VAE潜变量空间对于生成图像的质量具有关键性的影响。
  • 传播模型利用扩散Transformer的概念,混元DiT采用扩散模型去捕捉数据的分布特性。此模型借助交叉注意力技术融合了文本条件和扩散过程。
  • 改良后的创建工具相较于基准模型DiT,扩散Transformer引入了多项优化措施,其中包括采用自适应层规范化(AdaNorm)技术以增强对细致文本条件的应用效果。
  • 地点编码混元DiT利用旋转位置嵌入(RoPE)技术同步处理绝对位置与相对位置的依赖关系,并且能够兼容多种分辨率下的训练及推断工作。
  • 具备多种数据处理能力的高级语言模型(MDHM)针对图像与文字配对的初始描述进行优化重组,旨在提升数据的质量水平。通过微调后的MLLM可以创作出融合了广泛世界知识的系统化标题。
  • 数据分析流程涵盖数据的采集、解析、分类与运用,并借助名为“数据车队”的反复流程验证新增资料的可靠性。
  • 培训后期的性能提升为了减少部署的成本,在推理过程中实施了多项优化措施,涵盖ONNX图形的改良、核心部分的精进以及运算的整合等方面。

混元DiT与其它文本转图像模型之间的对比分析

为细致对比HunyuanDiT和其他模型的内容创作效能,项目组设计了一套涵盖四个评价指标的评测体系,并邀请了逾五十位专家参与打分工作。这些维度具体涉及图文统一性评估、去除人工智能瑕疵检测、主旨明确程度分析以及美感评判。

算法 开放源代码 图文相符率(%) 消除人工智能影像误差(%) 主题明确性(%) 美感评价(%) 总体评分(%)
SDXL升级版 当然,请提供您希望我改写的文本内容。 六十四点三 六十点六 九十一点一 七十六点三 四十二点七
PixelArt-Core 好的,请提供需要改写的具体内容。 六十八点三 六十点九 九十三点二 七十七点五 四十五点五
游乐场版本2.5 好的,请提供需要改写的具体内容。 71.90 七十点八 九十四点九 八十三点三 五十四点三
SD三版 为了完成您的请求,我需要具体的内容来进行伪原创的改写。请您提供需要修改的文字部分。 七十七点一 六十九点三 九十四点六 八十二点五 五十六点七
Midjourney 版本6 由于原文未提供具体内容,无法完成相应要求的伪原创改写任务。若能提供具体段落或句子,则可以更好地帮助您调整表述形式以达到相似却不重复的效果。请给出需要处理的文字内容。 七十三点五 八十点二 九十三点五 八十七点二 六十三点三
DALL·E 三代 为了完成您的请求,我需要知道具体的内容是什么。请您提供需要进行伪原创改写的文字或段落。 83.9分 八十点三 九十六点五 八十九点四 七十一点零
Hunyuan地图技术 当然,请提供您希望我改写的具体内容。 七十四点二 七十四点三 九十五点四 八十六点六 五十九点零
版权声明:ainav 发表于 2025-01-15 20:27:50。
转载请注明:腾讯混元发布的文生图扩散模型Hunyuan-DiT | AI导航站