腾讯开放的可控AI图像转视频模型——MOFA-Video

AI工具3个月前发布 ainav
175 0

MOFA-Video指的是什么?

MOFA-Video是一款由腾讯AI实验室与东京大学学者联合开发并公开发布的模型,它能够根据指定控制参数生成具有动态效果的视频内容。该技术借助生成运动场适配器对静态图像实施动画化处理以创建连续画面序列。在此基础上,依托预先训练好的Stable Video Diffusion框架,MOFA-Video能通过如手绘路径、面部标识串或音频线索等少量引导信号来精准调控输出视频中的动态表现。此外,这款模型具备灵活运用单一控制信息的能力,并支持将多种指引手段组合起来,在无需额外样本的情况下完成复杂动画创作任务,从而为图像向视频的转换提供了一个高度可定制的新方法。

MOFA-Video

MOFA-Video的主要特点与功能

  • 运动路径动画用户能够通过在图片上手绘路径来引导MOFA-Video创建对应的视频动画。这项特性尤其适用于那些要求对物件或摄像机动作进行精准操控的情况。
  • 脸部特征动态效果该体系借助由面部识别技术捕捉的关键点信息,创造出身临其境般的脸部表情与头部动态效果。
  • 结合多种控制的动画效果通过结合轨迹管理和面部特征调控,MOFA-Video可以生成同步的面部表情与肢体动作动画,从而构建出精细且多元化的动态视觉效果。
  • 利用声音数据生成脸部动画效果借助对音频信号的解析,MOFA-Video能创造出与声音或旋律相匹配的面部表情动画,比如实现精准的唇形同步效果。
  • 利用视频推动脸部动画的生成借助参照视频,MOFA-Video能让静态图片中的人物脸部动作仿照视频里的表现,从而达到动态表情重现的效果。
  • 零实例跨媒体调控MOFA-Video具备零样本学习的能力,这意味着各种控制信号能够不需进一步培训就能互相结合运用,显著增强了动画创作的灵活度与丰富性。
  • 制作长视频的能力运用周期性采样方法,MOFA-Video可以创建超出常规模型帧数限制的较长视频片段。
  • 用户操作界面MOFA-Video借助Gradio提供了一个简便实用的用户界面,使得用户能够轻松实现动画创作,整个过程无需依赖专业编程知识。

MOFA-Video

访问MOFA-Video的官方网址入口

  • 官方网站地址:https://myniuuu.github.io/MOFA_Video
  • Git仓库地址:https://github.com/MyNiuuu/MOFA-Video
  • 使用轨迹数据生成的图像动画展示及模型快照可在Gradio上查看:https://huggingface.co/MyNiuuu/MOFA-Video-Traj
  • Gradio展示与融合调控图像动画的关键节点:https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid

MOFA-Video的操作机制

MOFA-Video的工作原理

  1. 生成稀疏的控制信号于训练过程中,该系统运用稀疏动作取样方法来创建稀疏调控指令。这类指令可以表现为沿路径设计的动作指导标记、一系列表情关节点或是任何形式的动态指引。
  2. MOFA-Adapter架构设计MOFA-Adapter构成了系统的中枢部分,这是一个特制的网络架构,旨在把稀少的控制信号转变为丰富的动态场景。该组成部分包含:
    • S2D架构把分散的活动指示转变为详尽的动作场景。
    • 参照图片编译器从参照图片中获取多种层次的特征信息,以支持随后的运动场景构建。
    • 特性整合编译器融合S2D网络产生的运动场景和参考图像编码器提取的特性。
  3. 多种尺寸特征抽取通过处理输入的基准图片,参考图像编码器会生成多种尺度下的特性描述。这些特性将在随后视频帧创建的过程中发挥指导与变换的作用。
  4. 体育场地的创建及其运用S2D网络利用稀疏控制信号来创建密集的运动场,并运用这些运动场对多个尺寸级别的特征实施空间变换,从而在视频中重现动态效果。
  5. 预先训练好的SVD模型结合了MOFA-Adapter和预先训练好的Stable Video Diffusion (SVD)模型,通过运用由MOFA-Adapter提取到的条件特性来指导视频帧的创造过程。
  6. 空间扭曲通过应用生成的运动场地,该系统实现了对参考图片多层次特性在空间上的变换处理,以保证视频序列里的对象与环境组件依照预设路径动态调整位置。
  7. 视频图像创建通过改变特征空间内的特性来创建视频帧。此方法包括从隐藏维度取样,并逐渐消除噪音,从而恢复出清晰的视频画面。
  8. 整合多种模式的控制信号MOFA-Video具备整合多种来源控制信号的能力,并将其融入单一生成流程中,以达成复杂多变的动画视觉效果。
  9. 无样本训练完成MOFA-Adapter的培训后,在不同的调控环境中可以不经进一步训练就协同作业,从而达到对视频创作进行精确操控的目的。
  10. 长效视频创作方案为了解决长时间视频制作过程中的一致性和计算难题,MOFA-Video运用了循环取样技术,在隐含的空间里对图像帧实施分类与交叉取样,从而成功延长了视频的长度。
© 版权声明

相关文章