快手与浙大等机构共同开源的可控制视频生成技术 DragAnything

AI工具4周前发布 ainav
40 0

DragAnything指的是什么

由快手与浙江大学和新加坡国立大学Show Lab共同开发的DragAnything是一种基于实体表示技术的可控视频生成方案,通过简单的轨迹输入即可实现对视频内任意对象精确定位移动。该方法利用扩散模型中的潜在特征来表达每一个独立的对象,从而解决了传统像素拖动方式难以精确操控物体运动的问题。此外,DragAnything还提供了直观易用的操作界面,并允许用户灵活调整前景、背景以及摄像机的动态效果,在FID、FVD等评估标准及用户体验测试中均取得了优异的成绩。

DragAnything

DragAnything的核心特性

  • 针对具体物体的运动调控在视频中实现对所有对象(无论是前景还是背景元素)的精准动态调控,并非仅仅局限于像素层面的操作。
  • 多个个体各自单独操控能够实现对多种对象的同时单独操控其移动,各对象依据预先设定的不同路径执行各自的运动。
  • 易于用户操作的互动模式通过简单互动操作,比如选定区域后进行拖拽,用户即可完成对复杂动作的精准操控,而无需依赖于繁琐的数据输入形式,例如分隔遮罩或者深度图像。
  • 摄影机动作调控除了能够操控视频内的对象之外,DragAnything 还支持对摄像头动作进行调整,包括放大缩小和移动视角。
  • 制作高清晰度的视频内容维持运动控制的精确度,并创建高品质的视频材料,适应各种使用场景。

DragAnything的工作机制

  • 实体的表述引入了一种创新的实体表达技术,该技术通过分析扩散模型中的隐藏特性来捕捉视频内各对象的意义属性。此方法结合了对象的意义特性和它们的动作路径,从而达成对物体动作的高度精准操控。
  • 二维高斯函数表述通过采用二维高斯函数的表现形式,利用高斯分布特性增强物体中心部分的重要性,并减弱边界像素的作用力,从而达到更加流畅和自然的动作操控效果。
  • 传播模型利用类似于Stable Video Diffusion这样的扩散模型结构,通过其卓越的内容创造及降噪技术来制作高水准的视频片段。该类扩散模型依靠逐层消除噪音以复原每一帧画面,并整合用户的动作路径与物体表达信息进行操作。
  • 基于路径指引的运动操控通过设定简明的移动路线来描述对象的动作轨迹,DragAnything 技术将这一轨迹信息与实际物体图像相融合,从而制作出契合使用者构想的视频片段。这种方法绕过了直接操控像素带来的限制,使得对动作流畅性和精准度的掌控更为出色。
  • 代价函数及其优化方法于训练过程中,采用具有遮罩功能的均方误差(MSE)损失函数来着重提升特定由用户划定区域内的动作精准度,并维持其余部分的画面生成效果。

DragAnything项目的仓库链接

  • 官方网站项目页面:访问 https://weijiawu.github.io/draganything 以查看具体内容。
  • Git代码库:在GitHub上可以找到名为ShowLab的项目仓库,该项目名叫DragAnything。
  • arXiv科技文章在学术论文数据库中可以找到编号为2403.07420的文档,其网址是https://arxiv.org/pdf/2403.07420。

DragAnything的使用情境

  • 制作与修改视频内容高效创建动画与调节对象移动路径,以增强制作效能。
  • 制作电子游戏创造角色行为并提升用户的互动感受。
  • 教育和训练:支持科学仿真与技能训练,助力解析复杂的动作流程。
  • 宣传与推广创建生动的广告及商品演示,强调产品的独特属性。
  • 休闲与互动交往创建交互式视频并操控虚拟人物的动作,提升娱乐体验。
© 版权声明

相关文章