Add-it指的是什么
NVIDIA开发了无需训练的图像编辑技术Add-it,该技术能够依据文本指令向图片内添加物体。其工作原理基于扩展扩散模型中的注意力机制,通过结合场景图、文字提示和生成图的信息来确保结构的一致性和对象放置的自然性。在对真实与合成图像进行插入测试时,Add-it展现了卓越的表现力,并超越了监督学习方法,在超过80%的情况下更受人们青睐。
Add-it的核心特性
- 实体添加按照文字指示,在图片里自然地添加新的元素。
- 维持架构在引入新的元素时维持原有场景布局的一致性。
- 巧妙结合保证新的元素能够无缝地融入到已有的环境中,达到和谐统一的效果。
- 不必进行培训无需对特定任务进行调整或培训。
- 表现出色在多项标准评估中展现了顶尖性能,并特别在其新创建的“Additing 功能性基准测试”中获得了卓越成果。
- 分步创建可以分步骤创建图片,使最终产出更贴合用户的每一阶段喜好。
- 虚假图像的处理技术能够应对具有不真实视觉效果(例如卡通或艺术化样式)的原始图片。
Add-it的工作机制
- 结构调整把源图片的架构融入到目标图片中,确保情境的一致性。
- 增强型自我关注模块通过增强的自我关注技术,使目标图片能够有效整合来自文字描述与原始图片的关键细节,并对每一来源赋予不同权重,从而达成更加精确的目标物体定位。
- 话题指引潜在融合采用以主题为导向的复合技术来保存源图像中的细微特征,包括纹理和阴影,并保证新增元素能够无缝融入到整个画面中。
- 带权重的拓展注意模型采用权重分配方法,保证在融合数据过程中,来自各个渠道的信息能够获得相应的关注程度,从而达到更加自然的物体布局效果。
- 不必进行额外的培训利用预先训练好的扩散模型可以直接完成高品质的图片修改工作,无需再进行其他培训环节。
Add-it项目的网址
- 官方网站PROJECT访问网址 https://research.nvidia.com/labs/par/addit 以获取更多信息。
- Git存储库:可在NVlabs的GitHub仓库中找到addit项目的内容。
- arXiv科技文章访问该论文的PDF版本,请前往如下链接:https://arxiv.org/pdf/2411.07232
Add-it的使用情境
- 宣传与市场推广在广告图片里融入产品或品牌的特色元素,以制作出更加引人注目的宣传素材。
- 创意编写创作者能够迅速将其构想的对象或景象融合进已有的艺术品里。
- 影视与游戏创作于影片或游戏中融入虚构的人物与物件,以提升视觉体验。
- 媒体报道在新闻报道里,对图片内的某些元素进行插入或是更换。
- 社交平台用户于社交媒体发布的照片里加入文字说明目标物,以提升参与度和娱乐价值。
© 版权声明
文章版权归作者所有,未经允许请勿转载。