Adobe携手多家高校发布主题与文字转图像的个性化模型 —— GroundingBooth

AI工具5个月前发布 ainav
90 0

GroundingBooth指的是什么回事呢?

GroundingBooth 由华盛顿大学圣路易斯分校、Adobe 和普渡大学的研究人员共同开发,是一款先进的个性化图像创建框架。它采用文本-图像对齐模块及遮罩交叉注意力层技术,实现前景主体与背景元素的精准空间匹配。此框架能够产出符合特定布局需求、保留身份特征并确保文本和图片连贯性的定制化图像,并且支持多种主题,在复杂场景中仍能保持高度准确性。GroundingBooth 首次实现了基于主题生成前景以及利用文本指导生成背景的技术整合,为制作高精度的视觉内容开辟了新路径。

GroundingBooth

GroundingBooth的核心作用

  • 专属单一主题设计依据用户给出的文字说明及单一主题图片,创造相符合的独特图像。
  • 多种主题与文字对象协同设计能够针对多种主题与文字元素实现个性化配置,创作出融合多类物体及详细图文说明的复合型影像。
  • 空间吻合保证生成图片里的物体与提供的布局数据在空间定位上相吻合。
  • 维持原有身份在创建图像时维持主体的识别特性。
  • 图文匹配保证生成的图片内容和文字说明相吻合。

技术基础在于GroundingBooth的运作机制

  • 特性抽取利用 CLIP 文本编码模块与 DINOv2 视觉编码组件,各自获取文字及图片的特性表示。
  • 接地组件利用位置编码技术,结合输入的布局信息与文本及图像特性,以创建对接标记。
  • 掩码交织注意层于 U-Net 的每一个Transformer模块内采用掩码交叉注意机制以调控前景与背景区分的信息融合,保障了特征传递的精准度。
  • 精准布置管理利用在训练与推断过程中应用的掩码交叉注意机制,能够精准调控生成图像内物体的位置及尺寸。
  • 模型的培训过程于训练期间,该模型掌握依据文字说明与参照物来创造精确图像排列的方法。
  • 模型推断于推理过程中,该模型管理多种参照目标,并利用复制的掩码交叉注意力机制来达成多元主题的个性化设置。
  • 为了防止上下文相互混淆,请确保各部分内容独立。明确划分由主题引导的前景创造与由文字引导的背景创造的区别,以防在创作过程中出现上下文混乱的情况。

GroundingBooth项目的所在位置

  • 官方网站项目:github.io/grndngbhth
  • 关于arXiv上的科技学术文章这篇论文可以在网址 https://arxiv.org/pdf/2409.08520v1 中找到。

GroundingBooth的使用情境

  • 根据个人喜好打造的商品顾客依据个人偏好创造个性化的商品图片,比如个性化T恤、马克杯和手机外壳等,并在这些物品上添加独特的图形或是文本。
  • 创意艺术作品创作者们利用 GroundingBooth 创造出包含独特风格与特定要素的美术作品。
  • 游戏开发游戏创作者利用这一架构迅速创造游戏中独特的人物、环境或物件。
  • 宣传与推广市场专员设计了专门配合广告文字的个性化图片,以提升广告的整体魅力。
  • 社交平台上的内容创作用户于社交平台上传个性化的图片,这些图片通常关联到某个特别的主题或是事件。
  • 教学与训练资源教师创作包含具体信息且结构清晰的教学图片,以增强学习资源的吸引力及效果。
© 版权声明

相关文章