掌控姿态–开源的全方位姿势控制视频生成平台

AI工具2个月前发布 ainav
76 0

什么是Follow Your Pose?

由清华大学、香港科技大学、腾讯AI Lab及中科院的研究者们开发并开源的Follow Your Pose是一款基于文本至视频转换的技术框架。用户可以利用它通过输入特定的文字说明与设定的姿态来创造影片内容。此框架运用了分两个阶段进行训练的方法,确保生成的视频能够准确反映文字描述和姿态序列,并维持人物动作的真实感与流畅性。

FollowYourPose框架

进入Follow Your Pose的官方网站入口

  • 官方网站地址:https://follow-your-pose.github.io/
  • 码云仓库地址:https://github.com/mayuelala/AdhereToYourPose
  • 在ArXiv上发布的一篇学术文章中:https://arxiv.org/abs/2304.01186
  • 访问Hugging Face的此空间:https://huggingface.co/spaces/YueMafighting/FollowYourPose
  • 访问FollowYourPose的OpenXLab平台页面:https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
  • 访问Google Colab的链接如下:https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb

体验Follow Your Pose的特性与功能

  • 从文字转换为视频制作用户能够通过文字叙述来引导系统创建匹配的视频片段,包括人物的行为举止、环境设定和总体视觉效果。
  • 姿势调控用户能够通过设定人物的动作序列来操控视频内角色的行动,从而精准把握角色在影片中的每个动态细节。
  • 时间的连续性该系统可以创建在时间线上顺畅衔接的影片,保证影片内的行动与场面转换平滑自然,避免出现突然断裂或闪屏的情况。
  • 多样的人物与环境创造该工具可以创建多种视觉样式与背景的视频内容,涵盖真实感观、动漫效果以及未来主义如赛博朋克等多种艺术形式。
  • 多个角色的视频创作该系统具备创建包含多名角色的视频的能力,在单个影片里展现不同的个体形象,并允许依据文字说明来设定各个人物的角色身份及行为表现。
  • 创建具有独特视觉风格的视频内容用户能够通过输入诸如“卡通样式”或“赛博朋克风情”这样的风格说明,以创建具备独特艺术格调的视频内容。

遵循您的姿态的运作机制

FollowYourPose工作原理

遵循”Follow Your Pose”的操作机制主要是通过一种分两个阶段进行的培训流程,该流程专注于融合文字说明与姿势数据以创造视频内容。下面是对其操作细节的具体阐述:

  1. 首阶段:基于姿势调控的文字转图片创作
    • 姿势编码器首先,该架构采用了一个初始值设为零的卷积编码器来获取姿势数据的学习特性。此编码器负责从给定的姿势序列里捕捉重要的特征标记。
    • 特性嵌入所抽取的姿态特性经调整至多种解析度,并通过残差链接的方法融入预先训练好的文字转图片(T2I)模型的U-Net架构内。此方法确保了在维持原生图像生产效能的基础上,实现了对姿势的操控能力。
    • 练习在此阶段,该模型只通过姿态图片对来进行训练,目标是掌握依据文字说明与姿势数据创建图像的技能。
  2. 第二步:制作视频
    • 影像资料集合为确保学习过程的时间连续性,框架于第二阶段采用了未标记姿态信息的视频数据集(例如HDVLIA)来进行训练。
    • 三维网格架构为了适应视频数据的处理,我们将预先训练好的U-Net架构升级至三维结构。这一过程包括把初始的二维卷积层改造成为具有伪三维特性的卷积层,并融入了时间自注意力机制以更好地捕捉时序信息。
    • 跨越帧的自我关注机制为提升视频流畅度,该架构新增了跨越多帧的自我注意机制(multi-frame self-attention),有效增强了各视频画面间的信息连贯与一致性。
    • 细致调整在此期间,仅有涉及时间连续性的要素(例如时间自我关注及帧间自我关注)会得到调整,其余组件(比如模拟三维卷积模块与前馈神经网络FFN)则维持原状。
  3. 制作流程
    • 输入包括文本与身体姿势于推断过程中,使用者提供关于目标人物外貌与行为的文字说明,并配以展现动作流程的姿态串列。
    • 制作影片该模型利用提供的输入来创建视频内容。在此期间,大部分预先训练好的稳定扩散模型参数保持不变,仅那些涉及时间一致性的组件参与到运算中。

采用这种分两个步骤的训练方法,Follow Your Pose可以高效地利用容易获得的数据集进行学习,并产生具备强可控性与时间连续性的视频内容。

© 版权声明

相关文章