浙大与阿里共同研发的全新实体控制图像生成系统 EliGen

AI工具1个月前发布 ainav
54 0

EliGen指的是什么

EliGen是由浙江大学与阿里巴巴集团共同研发的一种创新型实体级别可控制的图像生成框架,该框架通过采用区域注意力机制,在不增加额外参数的情况下实现了将实体提示和任意形状的空间掩码无缝嵌入扩散变换器的功能。其训练基于一个包含50万高质量标注样本的数据集,确保了模型具备强大的实体级操作能力与准确性。此外,EliGen还引入了一种修复融合流程,使其能够适用于多对象图像修复任务的扩展需求。

EliGen

EliGen的核心特性

  • 精准的实体控制级别借助区域注意力技术,EliGen 可以精准操控图像内各个对象的细节,涵盖位置、形态及语义特性等方面。
  • 多个对象的图片恢复EliGen 设计了一种用于多对象图像修复的整合流程,借助区域焦点技术,在一次处理过程中即可完成对多种目标的修正工作。
  • 结构化实体管理通过与IP-Adapter的集成,EliGen能够依据参照图片的样式来创建具有相同艺术效果的目标图像,从而达成对特定对象进行样式的精确操控。
  • 互动式图形创作及修改借助与MLLM(多模态语言模型)的结合,EliGen能够根据对话内容来创建和调整图片,允许用户利用文字说明来进行图像的生成或是修订工作。
  • 整合到社区模型中EliGen 能够顺畅地结合如 IP-Adapter、In-Context LoRA 及 MLLM 之类的开放源代码模型,开启更多创新可能。它支持进行样式定制化的对象操控、对象迁移及以对话为基础的图片创作和修改工作。
  • 出色的广泛适应性在面对不同的随机种子、变动中的实体位置及不合理的定位数据时,EliGen 展现了出色的适应性,并能够创建出既优质又满足条件的图像。

EliGen的核心技术机制

  • 局部关注机制EliGen 集成了区域注意力机制,这一机制增强了扩散变换器(DiT)中的注意力组件,使其能够应对各种形状的物体遮罩。该系统结合了全局和局部提示嵌入来生成扩展提示序列,并依据空间条件构建了一个综合性的注意力掩码体系(涵盖实体-潜在、实体间及内部掩码)。EliGen 不需要增加额外参数就能在预训练阶段调整对象细节。
  • 创建高水准的数据集合为了训练 EliGen,研究人员创建了一个含有50万个高品质注释样本的数据库。这些样本利用 Flux 技术生成图像,并借助 Qwen2-VL 视觉语言模型进行整体提示与对象信息标注。这样的高水准数据集保障了模型在处理实体级别控制时的表现力和精确度。
  • 培训与精细调整EliGen 利用 LoRA(低秩适配)技术实现高效的微调过程,保证模型能够迅速达到收敛状态。LoRA 权重被嵌入到 DiT 结构中各个块的线性变换部分,涵盖注意力机制中的投影单元以及自适应 LayerNorm 组件内的线性处理层。
  • 修正整合流程EliGen 设计了一种修补整合流程,专为处理包含多个对象的图片修复工作而研发。此流程利用了分区导向的噪音整合技术,使得 EliGen 可以在一个前进步骤内完成多对象的修补,并且还能维持未被修补区域的质量水平。

EliGen项目的链接位置

  • 关于arXiv上的科技文章访问此链接可查看最新研究论文:https://arxiv.org/pdf/2501.01097,该文献提供了深入的学术见解。

EliGen的使用情境

  • 创建模拟环境EliGen 擅长创建高精度的虚构环境,并能够操控具有各种形态遮罩的对象,在虚拟现实与游戏制作领域的场景构建中十分实用。
  • 人物及物品创作用户能够精细调整虚拟环境中角色与物件的定位、形态及样式,从而获得一套高效的创作工具,用于打造个性化的数字内容。
  • 批量生成个性化数据集得益于 EliGen 具备的灵活形状掩码调控功能,它能够在处理大规模个性化数据时表现出色,特别适合用于加强数据集及执行机器学习相关工作。
  • 商品展出及推广EliGen 能够创建高水准的产品演示图片,具备精准的物体调控与风格定制功能,完全符合广告宣传及产品设计的要求。
© 版权声明

相关文章