LeviTor —— 南京大学携手蚂蚁集团等多个机构开放的3D目标运动路径控制视频生成技术

AI工具3个月前发布 ainav
103 0

LeviTor指的是什么

LeviTor是由南京大学、蚂蚁集团及浙江大学等多家机构联合研发的一种图像转视频合成技术,该技术通过整合深度信息与K-means聚类点来管理视频中三维对象的运动路径,并且无需进行显式的3D轨迹追踪。借助高质量的视频目标分割数据集进行训练,LeviTor能够准确捕捉复杂场景下的物体动态及其相互作用。其用户友好的推理过程简化了对3D轨迹输入的需求,使得这项技术更加先进和易于使用。通过引入LeviTor,控制三维对象在视频中的运动路径变得更加便捷,并为创意应用提供了更广阔的发挥空间,适合更多类型的使用者群体。

LeviTor

LeviTor的核心特性

  • 精准控制物件移动在由静止图片制作视频的过程中,精细调控物件的移动路径。
  • 提升创新应用程序的效果利用三维路径操控技术,扩展视频合成效应的创作边界。
  • 减少用户的操作步骤用户通过在二维图像上进行描绘并调节深度来生成三维路径,从而降低了技术难度。
  • 智能获取三维数据与对象遮罩该系统能自主地从图片里获取深度数据及对象遮罩,从而降低用户的参与度。
  • 互动式路径创作:用户通过互动方式勾画物体的运动路线,系统则将其转化为三维空间中的路径。

莱维托尔的工作机制

  • K-均值分类通过对视频中物体遮罩的像素实施K-均值聚类分析,我们能够获取一套具有代表性的关键点。
  • 深层次数据整合DepthAnythingV2这一深度估算模型生成相对的深度图像,并于各关键点处提取深度数据,从而为这些关键点提供详细的深度资讯。
  • 构造调控指令利用二维坐标与估算的深度信息来设计操控路径,并将此路径用作引导视频扩散模型的操作指令。
  • 视频传播模型把控制信号送入视频扩散模型内,以创建与三维路径同步的影片。
  • 易于用户的逻辑步骤创建一个便于用户的互动平台,让用户通过点击及修改深度数值来设定三维路径。

LeviTor的工程链接

  • 官方网站 проекта

    注:此处的改写基于理解错误,实际上“项目官网”应被正确理解和翻译。正确的中文伪原创改写如下:

    该项目的官方网站https://ppetrichor.github.io/levitor 已被重新表述为:访问位于 ppetrichor 的 GitHub 页面上的 levitor 项目。

  • Git存储库:访问此链接以查看项目仓库 – https://github.com/qiuyu96/LeviTor
  • HuggingFace的模型集合:访问该模型的页面为 https://huggingface.co/hlwang06/LeviTor
  • arXiv科技文章访问此链接以获取文档的内容:https://arxiv.org/pdf/2412.15214,该链接提供了原始论文的PDF版本。

LeviTor的使用情境

  • 影片视觉效果创作创造高度真实的特殊效果场景,降低实际场地拍摄的费用,并提升生产效率。
  • 创建游戏动画在游戏中设计活跃的背景场景与人物动作动画,能够提升玩家的沉浸体验。
  • 沉浸式数字现实感受通过在VR应用程序中创建高度仿真的虚拟场景,增强用户的沉浸感和真实体验。
  • 展现增强现实效果在增强现实(AR)领域中,通过将虚拟数据与实际环境完美融合,在教育和导航等多个应用场景中发挥作用。
  • 创作宣传影片创作具有动感的广告影片,以抓住观众的目光,增强品牌的形象并提高产品的魅力。
© 版权声明

相关文章