指导修改 —— 东京大学与 Adobe 共同开发指令驱动的图像编辑系统

AI工具3个月前发布 ainav
94 0

InstructMove指的是什么?

InstructMove是由东京大学与Adobe公司共同开发的一款指令驱动型图像处理模型,它通过分析视频帧序列的变化来学习按照指示对图片实施操作的方法。该模型利用多模态大规模语言模型(MLLMs)生成描述相邻帧间变化的编辑命令,并训练出一种能力,在确保内容一致性的前提下执行复杂的非刚性修改任务,比如调整对象的姿态、变换表情和视角等。InstructMove采用真实视频片段作为其数据基础,以此保证图像编辑过程中的自然流畅与真实性,有效解决了合成数据库在复杂编辑任务上的不足之处。此外,该模型还支持通过掩码等方式进行精准的局部修饰操作,在实际应用中显著提升了灵活性和实用性。

InstructMove

InstructMove的核心作用

  • 柔性编辑可以修改图片中主要对象的姿态和表情等柔性特性,以满足具体的编辑要求。
  • 变换角度依据指示调整图片的观察角度,比如使摄像机的角度往左侧或者右侧偏移,从而变换图片的整体布局与观感体验。
  • 成分重新组合调整图片内各组件的位置或者布局,比如把玩偶的腿部整理好或将小鸟的尾部显露出来,以符合具体的修改要求。
  • 精准区域修改通过与掩码及其他控制手段相结合,能够精准地对图片的部分区域实施局部调整,达到更为精细的修饰目的。

InstructMove的操作机制

  • 建立数据集合
    • 视频画面抽样通过从网络视频中选取具有显著差异性的帧组合,比如人物姿态改变、物体位移或是摄像机角度的变化,来收集大量的真实和自然的视觉转换实例。
    • 创建一个多模式语言生成模型的指示利用诸如GPT-4o或Pixtral-12B之类的多模态大语言模型(MLLMs),来解析抽取帧对间的区别,并创建精确的修改指南。
  • 框架设计及培训过程
    • 对预先训练的模型进行调整优化对预先训练好的文本转图像(T2I)模型,例如Stable Diffusion,在特定数据集上进行精细调整。
    • 空间布局方案采用空间位置策略,把参照图片和噪音数据在空间轴上进行合并,替代了以往的通道合并方法。
    • 噪声消除模型的培训过程把拼接好的数据输入到去噪U-Net架构中以生成噪音图像的预测结果。通过评估这个预测噪音图与初始噪音图的区别来调整模型的参数设置,从而更精确地按照指定的操作指示去除目标图片中的噪声并进行重构,最终达成图像编辑的目的。
  • 整合管控系统
    • 遮罩指引该功能集成了诸如遮罩和其他管理工具的支持,以达成精准的部分调整。于推演环节中,通过遮罩来划定待修整范围,并结合改良后的内部表现形式和原始模板数据实现图象局部细节的优化改动。
    • 其余的空间管理结合ControlNet等可控制的扩散模型,并利用用户给出的附加视觉提示,比如素描或是骨骼关键点信息,来完成更为复杂且精准的图像修改任务。

InstructMove项目的网址

  • 官方网站ของโครงการhttps://github.com/ljzycmd/InstructMove Projects 页面
  • 关于arXiv的技术文章这篇文档可以在如下链接中找到:https://arxiv.org/abs/2412.12087v1,该版本提供了最新的研究成果。请注意,直接访问.pdf可能需要根据实际存在的版本号进行适当调整。

InstructMove的使用情境

  • 电影与电视节目编辑加工在科幻影片中,特效团队对异星生物的角色表情进行了微调,确保它能准确地传达出剧情所需的怒气。
  • 广告创新策划为了强调新车的动感与速度感,并抓住潜在买家的目光,设计师对汽车宣传视频中的赛车角度及环境要素进行了优化调整。
  • 空间规划与装饰设计为了符合客户的审美与实用性要求,室内设计师重新布置了卧室的床头柜并更换了窗帘的设计,旨在打造一个既舒适又温暖的休憩空间。
  • 美术教学在美术课堂中,教师通过修改人物的姿态来辅助学员们领会姿势如何影响情绪的传达,并增进他们对于艺术表达的认知。
  • 个人相片修饰个体用户对聚会的照片进行修饰,使表情更加自然和放松,并上传至社交媒体,从而收获朋友们的赞许与好评。
© 版权声明

相关文章