MotionCtrl —— 由腾讯等公司开发的视频生成工具中的运动控制组件

AI工具2年前 (2025)发布 ainav

479 0 0

MotionCtrl指的是什么

MotionCtrl是一款专为视频生成技术设计的通用且灵活的运动控制系统，由腾讯、香港大学、上海人工智能实验室、清华大学及广东工业大学的研究团队共同研发。该系统旨在独立操控视频内相机移动和物体动态视点。它主要包括两个核心组件：负责相机动作调控的部分与管理对象移动视角的功能模块，并能与潜在视频扩散模型无缝配合，确保生成的视频中运动视点可以被精准控制。

访问MotionCtrl的官方网站入口

该项目的官方网站地址为：https://wzhouxiff.github.io/projects/MotionCtrl/
一篇来自Arxiv的研究文章可以在此处找到：https://arxiv.org/pdf/2312.03641.pdf
TencentARC的MotionCtrl项目托管于GitHub平台，访问地址如下：https://github.com/TencentARC/MotionCtrl
TencentARC在Hugging Face上的项目（MotionCtrl与VideoCrafter结合）：https://huggingface.co/spaces/TencentARC/MotionCtrl
TencentARC的MotionCtrl与SVD结合项目可在Hugging Face上找到：https://huggingface.co/spaces/TencentARC/MotionCtrl_SVD

MotionCtrl的特点与功能

利用模型创作影片MotionCtrl可与诸如VideoCrafter及Stable Video Diffusion等视频创作模型结合，依据文字说明制作出影片。这类影片不仅展现静止画面，还融入了平滑且连贯的动作效果。
管理摄像机的移动用户能设定摄像机于影片内的动作模式，比如横向或纵向滑动、图像的放大与缩小、以及按照顺时针或是逆时针方向进行旋转等操作，而MotionCtrl会依据用户的设置来制作出符合要求的画面效果。
操控物件的移动通过使用MotionCtrl，可以调整视频内对象的动作路线，包括其在画面里的位移途径、行进速率及导向，并确保这些动作符合文字说明或是用户的定制轨道要求。
集成运动调控MotionCtrl不仅能单独操控相机与对象的移动，还能同步管理二者的动作，从而达到精细的动态表现效果，比如让相机一边跟随对象移动一边执行横向位移或是自转操作。
兼容各种摄像机位置与运动路径在完成培训之后，MotionCtrl具备了应对多种相机角度与物体移动路径的能力，不必针对每一个新的情景重复进行模型的训练。

MotionCtrl的操作机制

MotionCtrl的核心运作机制依赖于两大关键组件：摄像机动作调控单元(CAMCU)与对象动态管理单元(ODMU)，同时这些组件需同隐式影像扩张系统(LVIS)实现高效协作。

下面是MotionCtrl操作机制的具体流程：

摄像机动作调控(CAMC)由于提供的内容为空，没有具体内容可以进行伪原创改写。如果您有具体段落或句子需要帮助，请提供详细信息。
- CMCM获取一组表示相机在视频中移动轨迹的姿势数据，其中包括旋转矩阵与位移矩阵。
- 在视频生成的过程中，CMCM结合了来自LVDM的时间变换器模块中捕捉的相机位置数据。
- 于时间转换器的第二阶段自我关注组件里，摄像机位置序列经扩充后与时间节点数据融合，并经过一个完全连接网络进行加工处理，为接下来的时间转换器操作做准备。
- 这样一来，生成的视频会按照预定的摄像机动作——比如移动、放大缩小以及转动——来展现整个场景的变化情况。
物体操控管理（OMCM）由于提供的内容为空，没有具体的信息可以进行伪原创改写。如果有具体的段落或句子需要帮助，请提供详细信息。
- OMCM致力于管理视频内对象的移动路径，此类路径一般通过对象在每帧图像里的具体方位来展现。
- OMCM通过运用卷积层与降采样的方法，从移动路径中捕获多种尺度的特性信息，并将其整合进LVDM的卷积结构之中。
- 借助这种方法，OMCM可以标明视频内各物件在每帧画面里的具体位置，从而达到精准操控对象局部动作的效果。
培训方案请提供需要伪原创改写的具体内容。由于您当前的消息中并未包含具体文字信息，我暂时无法完成您的请求。如果有具体内容，请告知！
- MotionCtrl的培训过程包含两个步骤。初始阶段，在含有视频片段及摄像机姿势标注但缺乏物件移动路径信息的Realestate10K数据集中对CMCM进行训练。
- 接下来，利用包含视频片段、标题及物体动态路径的WebVid数据集，并结合由ParticleSfM算法生成的运动轨道对OMCM进行训练。
- 在对模型进行训练时，将CMCM和OMCM这两个类似适配器的组件加入到了预先经过训练的LVDM框架中，确保它们可以单独接受培训，并且不会干扰到LVDM其余模块的功能。
制作影片需要提供的原文未给出，请提供具体的内容以便进行伪原创改写。
- 于视频创建的过程中，MotionCtrl依据文字指引，并融合摄像机角度及对象移动路径，制作出符合文字叙述的影片。
- LVDM起初在噪声基础上构建出视频的潜在形态，接着CMCM与OMCM依据特定的动作条件来校正整个视频及其细节部分的动作表现，从而完成一段符合预设动作特性的视频制作。