华为发布的新款文生图模型PixArt-Σ – 能够创造4K超清影像

AI工具3个月前发布 ainav
89 0

什么是PixArt-Σ?

来自华为诺亚方舟实验室、大连理工大学及香港大学的研究团队开发了PixArt-Σ这款文生图模型,它基于扩散Transformer架构(DiT),旨在直接从文本描述生成高达4K分辨率的优质图像。这一创新成果是在PixArt-α的基础上,通过融合高级组件和运用渐进式训练策略构建而成的更优版本。改进后的模型不仅提升了生成图片的真实感,还增强了其与输入文本提示的一致性。实验表明,PixArt-Σ在美学质量上可以媲美现今领先的文生图工具如DALL·E 3和Midjourney V6,并且特别擅长准确反映给定的文本指示内容。

PixArt-Σ

进入PixArt-Σ的官方网站入口

  • 该项目的官方网站地址为:https://pixart-alpha.github.io/PixArt-sigma-project/
  • PixArt-alpha的GitHub仓库地址为:https://github.com/PixArt-alpha/PixArt-sigma(目前该链接包含即将发布的源代码和模型)
  • 学术文章探索了如下主题:https://arxiv.org/abs/2403.04692

PixArt-Σ的主要特点与功能

  • 生成具有4K清晰度的图像PixArt-Σ具备直接根据文本描述创建分辨率为3840×2160的高清晰度图片的能力,整个过程不需要额外的后期编辑或第三方应用程序的支持。
  • 实现从文字描述精准生成图片的技术转型该模型在创造图片的过程中,能准确依照文字说明的细节,保证了图片和文字之间的一致性非常高。
  • 高效培训PixArt-Σ运用了从低至高的训练方法,并借助优质的数据资源与先进的令牌压缩手段,大幅提升了其培训效能。
  • 更为紧凑的模型大小虽然PixArt-Σ具备生产高质量、高分辨率图片的能力,它的模型规模却较为紧凑,仅有0.6B个参数,这一特性大大提升了其运行效率和部署的便捷性。

PixArt-Σ生成的图像对比

PixArt-Σ的操作机制

PixArt-Σ的操作机制依托于DiT(扩散变换器)框架,该框架融合了扩散模型与变压器结构,是一种深层次的学习技术,旨在把文字叙述转化为具体的视觉图像。下面是关于PixArt-Σ运作细节的详尽说明:

1. 在初步训练期间:

于预训练期间,PixArt-Σ通过广泛运用文图配对资料来掌握文字与图片间的联系。这一流程大致涵盖如下环节:

  • 数据编码最初,借助诸如Flan-T5之类的文本编码器,输入的文字叙述会被转化为一串令牌的嵌入形式。在PixArt-Σ里,为了解决更为复杂的情况下的文字描述问题,该系统的文本编码器能够处理长达约300个单词的令牌序列。
  • 基于条件的特性抽取随后,这些文字编码会连同图片的上下文特性一并输入到扩散模型中处理。这里的条件特徵抽取器一般指的是一个已经经过预先训练的人工智能网络,其主要功能是从文字编码里提炼出有助于图像创作的相关信息。
  • 传播流程:扩散模型通过逐步增加噪音以模仿由原始数据分布到含噪过程的学习机制来掌握数据特征。在整个训练阶段,该模型致力于探索并实现从杂音丰富的信息重构出纯净图像的方法。
  • 逐步精进在迭代的过程中,该模型逐步掌握了依据文字说明创造高品质影像的能力。这一进程包括了对模型内部参数进行微调,以确保所创建的图片能够更加逼近真实效果。

2. 逐步增强型训练:

PixArt-Σ运用了从基础到高级的训练方案,即初始阶段使用较简单数据集对模型进行培训,随后逐渐过渡至采用更为复杂的数据集及优化后的训练方法。这种渐进式的策略能够使模型在资源有限的情况下更高效地整合新信息与技术以提升其表现力。

3. 精选训练资料集合(Internal-Σ):

PixArt-Σ采用了全新构建的高品质数据库,该数据库内含高清图片及详尽精确的文字说明。此类资料丰富了系统的视觉素材和文字内容,有效提升了所创图像的整体质量及其与文字叙述的一致性。

4. 有效的token压缩与初始权重设置:

为创建高质量的图像,PixArt-Σ采用了压缩键和值令牌的方法,并配备了一种特别规划的权重初始设置策略。通过这种方法,该模型不仅提升了在生成高分辨率图片时的表现效率,同时也降低了对计算资源的要求。
PixArt-Σ键值压缩

5. 细微调整方法:

于调整期间,PixArt-Σ经由更新为更强力的变分自编码器(VAE)、实现从小尺寸至大尺寸的画面拓展,并通过引入KV压缩技术替代原有的非KV压缩方法,显著增强了其模型效能。

6. 创造阶段:

在创建阶段中,用户提供一段文字说明,模型利用其掌握的文字与图片之间的联系,在多次迭代的过程中逐步形成一幅符合该描述的画面。生成的画面会依据提供的文字内容、艺术风格及细节要求进行相应的调整和优化,确保最终呈现的图像不仅美观而且能够精确地传达出文本所要表达的意思。

© 版权声明

相关文章