ELLA代表的是什么?
腾讯的研究人员开发了一种名为ELLA的新技术,意在增强文本转图像生成模型对复杂文本指令的语义一致性处理能力。当前的扩散模型普遍采用CLIP作为其文本编码器,在应对包含多对象、细致属性及复杂的相互关系等信息丰富长文字段落时表现出一定的局限性。为此,研究团队设计了ELLA,通过一个具备时间感知功能的语义连接器(TSC),动态捕捉预训练语言大模型中的序列依赖条件,显著提升了对复杂文本提示的理解与执行能力。
进入ELLA官方网站的通道
- 官方网站地址:https://ella-diffusion.github.io/
- Git仓库地址:https://github.com/ELLA-Diffusion/ELLA
- 在arXiv平台上发布的一篇学术文章:https://arxiv.org/abs/2403.05135
ELLA的特色功能
- 提升语义一致性借助于大型语言模型(LLM)的支持,ELLA增强了其在理解文本描述中的多种对象、精细特性和错综关系方面的能力,进而能够创造出更加符合文字说明的图像。
- 时间意识的语义抽取在扩散过程中,ELLA的TSC(Time-step Aware Semantic Connector)模块能动态地捕捉各时间节点上的语义特性,确保模型于图像生成的各个时期能够聚焦于相应的文本内容。
- 不必再次训练ELLA的架构使其能够无缝集成到已预先培训好的语言生成模型及U-Net结构中,这一过程不需要进一步调整或训练现有模型,极大地节约了运算资源与时间成本。
- 相容性ELLA能够顺利地整合进当前的社区模型中,比如Stable Diffusion,并且也适用于各种后端工具,例如ControlNet,这种结合显著增强了它们解析复杂文字指令的能力。
ELLA的操作机制
ELLA的核心机制在于运用一个轻量级且可训练的时间感知语义桥接器(TSC)模块,融合了强效LLM的语义解析能力与现行的图像合成扩散技术,旨在无需重训整个框架的前提下,增强模型对复杂文本指令的理解深度及提升图像创作的质量。
- 数据编译最初,ELLA借助预先训练好的大规模语言模型(LLM)对输入的文字提示进行编码处理。此LLM具备解析复杂文字段落的能力,涉及多种物体、特性及它们之间的联系,并能够从中提炼出详尽的语义信息。
- 时间意识语义链接器(TSL)ELLA的关键组成部分是一个称为TSC的单元,该单元旨在将由大型语言模型抽取的文字特性与图像创建机制(例如U-Net)中的扩散步骤相融合。在生成过程的不同阶段,TSC能够动态地提取并调节语义元素,以确保文本提示和最终产生的图像内容之间有更好的对齐效果。
- 被冰封的U-Net于ELLA框架内,U-Net架构(一种专门用于图像合成的扩散型网络)与大型语言模型均处于锁定状态,意味着在整个ELLA的学习周期中它们的权重不会经历调整过程。此举旨在防止对整体系统进行冗余训练,从而实现资源节约并维持原有模型效能不变。
- 语义特性调整TSC单元获取由LLM提供的文本特性和时间步长嵌入信息,并产生一个恒定长度的语义询问。随后,这些询问利用交叉注意力技术与U-Net架构互动,影响图像创建时的噪声预估及去除过程。
- 对TSC组件进行培训虽然LLM与U-Net维持不变,TSC模块则需经过训练。该模块通过在一个富含信息量的图文配对数据集上接受训练,掌握从文本指示的各种片段及扩散进程的不同环节中抽取并调整语义特性的方式。
- 创建图片当创建图像的过程中,ELLA的TSC组件依据文字指引及现有的扩散时刻阶段,向U-Net架构输送条件性特质。此类特质助力于让U-Net在每一时间节点上产出更加契合文本描述的画面内容。
- 评价与改进通过运用诸如Dense Prompt Graph Benchmark(DPGBench)等标准评测手段来衡量改进型模型的效果。依据评测反馈,有可能需调整TSC组件或是培训流程,从而达到更优的模型性能。