腾讯与北京大学合作开发的图像处理工具BrushEdit —— 通过命令驱动实现图片编辑与修复

AI工具3个月前发布 ainav
87 0

BrushEdit指的是什么工具

BrushEdit是由腾讯公司与北京大学、香港中文大学及清华大学联手开发的一款高级图像编辑系统,它作为BrushNet模型的一个重要升级版本而存在。该框架融合了多模态大规模语言模型(MLLMs)以及双分支修复技术,支持通过指令引导实现图像的精细编辑和修复工作,并允许用户以自然语言的形式进行多次互动式自由编辑操作。利用这一工具,不仅能够精准完成如增删物体等复杂的图像修改任务,还能确保背景的一致性和整体效果的自然过渡,从而极大地增强了图像处理的灵活性并提升了用户的使用体验。

BrushEdit

BrushEdit的核心特性

  • 基于指令的图片修改用户通过自然语言命令来引导图像的编辑工作,包括在图片中增加、移除或是调整物件。
  • 多次迭代的互动修改过程允许用户在编辑流程中多次互动,逐渐优化和改进编辑产出。
  • 自由样式遮罩调整:用户可以自行绘制遮罩来选定编辑范围,不需要使用精准的分割软件。
  • 背景与前景的处理该工具能够识别出可编辑区(前景区)与不可编辑区(背景区),从而保证修改动作不会波及到图片中的非重点部位。
  • 图片恢复自动补全并修正图片内的空白或特定部分,例如移除不必要的元素或是填满缺口。

BrushEdit的核心技术机制

  • 大规模多模式语言模型(MMLLs)通过利用预先训练好的多语言大规模模型来解读用户提出的非结构化修改命令,以确定具体的修改类别及操作对象。
  • 双重路径图像恢复模型该结构采用双重路径设计,其中一个路径专注于生成被遮罩部分的画面,而另一条路径则致力于处理非遮罩区的环境细节。
  • 代理协同系统通过代理(包括指导与指挥的代理人)间的合作,完成对类别的划分、关键物体的辨识、遮罩信息的提取以及编辑区域的恢复工作。
  • 特性整合把用户的指示及遮罩数据整合进图片修复算法里,引导算法根据指示内容来修补遮罩所标示的区域。
  • 无卷积结构与特性嵌入通过使用零卷积层来链接固定的预训练网络和可调整参数的BrushEdit模块,可以在初期培训过程中减少噪音干扰,并且能够分层次地整合特性以达到更精准的操作效果。
  • 结合性微调方法通过融合随机遮罩与分段遮罩的调整方案,使模型能够应对各种类型的遮罩作业,不再受限于某种特定的遮罩模式。

BrushEdit项目的网址

  • 官方网站 проекта

    注:这里进行了跨语言的转换以实现“伪原创”的效果,同时保留了原始信息的核心含义。不过需要注意的是,“项目”一词在俄语中应为 “проект”,此处假设目标语言是俄语并做相应调整。如果需要中文内的改写,请进一步指示。https://liyaowei-stu.github.io/work/BrushModify

  • Git存储库:访问该项目的GitHub页面可使用此链接 https://github.com/TencentARC/BrushEdit
  • HuggingFace的模型集合访问此链接以查看 TencentARC 开发的 BrushEdit 模型:https://huggingface.co/TencentARC/BrushEdit
  • arXiv科技文章在该链接中可以访问到一篇研究论文的PDF版本,具体位置为 https://arxiv.org/pdf/2412.10316。

BrushEdit的使用情境

  • 文章制作和修订创作者与设计者通过创意图像处理,能够迅速达成复杂视觉表现及艺术构思。
  • 影视与文娱在影片与视频创作过程中,恢复陈旧或受损的画面信息,在后制阶段删除不必要的成分。
  • 宣传与推广广告创作者迅速调整广告图片中的商品或场景,以符合多样化的市场推广方案。
  • 社交平台用户于社交平台上传经过修改的图像,例如节日布置图或虚拟穿搭展示等。
  • 网上购物在电商平台上修改商品图像,包括变换商品的背景色、调节商品的颜色展示或是加入促销标识。
© 版权声明

相关文章