蚂蚁集团携手香港科技大学等机构开发的多图一致编辑技术 —— Edicho

AI工具 2个月前 ainav
63 0

Edicho指的是什么

Edicho 是由香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学共同研发的一种基于扩散模型的图像编辑技术,能够实现多幅图片之间的统一修改效果。该方法无需训练即可直接使用。其核心机制在于利用明确的图像间对应关系来引导整个编辑流程,并通过注意力操作模块(Corr-Attention)与分类器自由引导去噪策略(CFG),确保在不同图片中的编辑保持一致。其中,Corr-Attention 利用清晰的关联性提升了自注意力的效果,将原图特征精准地传递给目标图像;而 Corr-CFG 通过对原有 CFG 算法进行优化,并融合预先计算好的对应关系数据,能够引导生成过程更加符合预期效果的同时还能维持高质量的画面。

Edicho

Edicho的核心特性

  • 统一性图片修改在处理多个图片时进行统一的修改工作,涵盖特定区域的调整(比如修复图象)以及整体效果的变化(例如变换图片样式),以保证修改后的成果能够在不同环境中达到极佳的一致性。
  • 易于安装的兼容性特性作为一种用于推理的算法,它可以轻松地与多种基于扩散模型的编辑技术(例如ControlNet和BrushNet)结合使用,并且不需要任何附加的训练数据就能被应用到具体的项目中。
  • 适用于多种任务此技术不仅可用于图片修饰,还能够延伸到个性内容制作、三维模型构建和一致性的材质映射等多个方面,从而拓宽了编辑软件的应用范畴。

Edicho的核心技术机制

  • 明确的图像关联指导通过利用明确图像匹配来指导修改流程,克服了传统隐含匹配技术存在的限制。首先采用预先训练好的匹配抽取工具(例如DIFT和Dust3R)从源图片中精准提取出可靠的匹配点,并将这些预设的清晰对应关系融入到扩散模型的降噪阶段之中,从而保障编辑结果的一致性。
  • 聚焦机制组件(Corr-Focus)通过强化注意机制,并利用图像间的关联来指导特性传输过程。在此方法中,于自我关注组件内依据明确的匹配关系调整询问特性的转换方式,从而能够借鉴源自另一幅图的相关属性信息,生成更新过的询问矩阵,在去除噪声的同时确保编辑的一致性得以实现。
  • 改进的分类器导向自由引导(CFG)降噪方法(Corr-CFG)通过整合预先确定的相关性,在编辑时维持高水平的质量与统一性。调整CFG的计算方法,利用关联性的指引来控制CFG结构里的非条件路径,并结合非条件嵌入属性,从而进一步提升一致性表现,同时也确保预训练模型具备的强大生成能力得以完整保留。

Edicho的工程位置

  • 官方网站:访问网址 https://ezioby.github.io/edicho 获取更多信息。
  • Git代码库:在GitHub上的EzioBy用户仓库中可以找到名为edicho的项目。
  • arXiv科技文章访问该链接以获取名为2412.21079的论文副本:https://arxiv.org/pdf/2412.21079

Edicho的使用情境

  • 商品推广电商卖家通过统一编辑从多个视角拍摄的商品图像,以提高商品的吸引力及购买转化概率。
  • 特别活动:于圣诞节之际,参与者可将自己的数幅家庭照加工为充满节日氛围的图像,并上传至社交平台,供家人及朋友一同欣赏。
  • 定制化内容创作用户依据个人偏好,对若干张自拍进行美化处理,并统一其风格以制作个性化的头像图片,在各大社交网络平台上使用。
  • 仿真实境在游戏中,设计人员通过调整虚拟人物的多个初步设计方案来确保统一性,从而增强角色的整体感和独特性。
  • 医疗图像数据集的扩充于医疗成像解析范畴内,通过对医疗图像资料集合里的图片实施统一性修改,以增强疾病诊断算法的训练成效。