Adobe携手多家高校发布主题与文字转图像的个性化模型 —— GroundingBooth

AI工具2年前 (2025)发布 ainav

337 0 0

GroundingBooth指的是什么回事呢？

GroundingBooth 由华盛顿大学圣路易斯分校、Adobe 和普渡大学的研究人员共同开发，是一款先进的个性化图像创建框架。它采用文本-图像对齐模块及遮罩交叉注意力层技术，实现前景主体与背景元素的精准空间匹配。此框架能够产出符合特定布局需求、保留身份特征并确保文本和图片连贯性的定制化图像，并且支持多种主题，在复杂场景中仍能保持高度准确性。GroundingBooth 首次实现了基于主题生成前景以及利用文本指导生成背景的技术整合，为制作高精度的视觉内容开辟了新路径。

GroundingBooth的核心作用

专属单一主题设计依据用户给出的文字说明及单一主题图片，创造相符合的独特图像。
多种主题与文字对象协同设计能够针对多种主题与文字元素实现个性化配置，创作出融合多类物体及详细图文说明的复合型影像。
空间吻合保证生成图片里的物体与提供的布局数据在空间定位上相吻合。
维持原有身份在创建图像时维持主体的识别特性。
图文匹配保证生成的图片内容和文字说明相吻合。

技术基础在于GroundingBooth的运作机制

特性抽取利用 CLIP 文本编码模块与 DINOv2 视觉编码组件，各自获取文字及图片的特性表示。
接地组件利用位置编码技术，结合输入的布局信息与文本及图像特性，以创建对接标记。
掩码交织注意层于 U-Net 的每一个Transformer模块内采用掩码交叉注意机制以调控前景与背景区分的信息融合，保障了特征传递的精准度。
精准布置管理利用在训练与推断过程中应用的掩码交叉注意机制，能够精准调控生成图像内物体的位置及尺寸。
模型的培训过程于训练期间，该模型掌握依据文字说明与参照物来创造精确图像排列的方法。
模型推断于推理过程中，该模型管理多种参照目标，并利用复制的掩码交叉注意力机制来达成多元主题的个性化设置。
为了防止上下文相互混淆，请确保各部分内容独立。明确划分由主题引导的前景创造与由文字引导的背景创造的区别，以防在创作过程中出现上下文混乱的情况。

GroundingBooth项目的所在位置

官方网站项目：github.io/grndngbhth
关于arXiv上的科技学术文章这篇论文可以在网址 https://arxiv.org/pdf/2409.08520v1 中找到。

GroundingBooth的使用情境

根据个人喜好打造的商品顾客依据个人偏好创造个性化的商品图片，比如个性化T恤、马克杯和手机外壳等，并在这些物品上添加独特的图形或是文本。
创意艺术作品创作者们利用 GroundingBooth 创造出包含独特风格与特定要素的美术作品。
游戏开发游戏创作者利用这一架构迅速创造游戏中独特的人物、环境或物件。
宣传与推广市场专员设计了专门配合广告文字的个性化图片，以提升广告的整体魅力。
社交平台上的内容创作用户于社交平台上传个性化的图片，这些图片通常关联到某个特别的主题或是事件。
教学与训练资源教师创作包含具体信息且结构清晰的教学图片，以增强学习资源的吸引力及效果。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Thunderbit —— 无需编程即可创建AI应用程序与自动工作流的平台

ainav

449 0

X-AnyLabeling – 一款AI驱动的图象与视频标记软件，兼容多种标注风格

ainav

875 0

AI艺术创作工具 —— AISEO Art，涵盖多元场景与丰富的画风技法

ainav

327 0

Navos——钛动科技AI营销工具

ainav

117 0

Matrix-3D：昆仑万维的3D世界模型

ainav

219 0

华为诺亚方舟与多家高校共同研发的多元数学推理解析系统 —— AtomThink

ainav

415 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2