字节与斯坦福等机构合作开发的动画创作平台 X-Dyna

AI工具2个月前发布 ainav
142 0

X-Dyna指的是什么

X-Dyna 是一个利用扩散模型来实现动画化的框架,它能够根据驱动视频里的面部表情及身体动作,使单一的人类图片变得生动起来,并产生既真实又具有环境感知能力的动态效果。该系统的关键在于 Dynamics-Adapter 组件,它可以高效地将参考图像的视觉特征融入到扩散模型的空间注意力机制中,同时确保运动模块可以生成平滑且复杂的动态细节。

X-Dyna

X-Dyna的核心特性

  • 将单一图片转化为动态影像X-Dyna 可以利用一张人物图片,结合面部表情及肢体语言的变化,创造出既逼真又具备场景适应性的动态影像。
  • 脸部表情与肢体动作的掌控该工具利用Dynamics-Adapter组件,把参照图片的视觉特征融入扩散算法里,并保持了动作部分的动力学精细度生成功能。它还能独立调节面部神情,从而精准地进行表情迁移。
  • 结合多种类型的数据进行培训X-Dyna 经过在结合了人类活动录像与自然景观录像的数据集合上的培训,能够同步掌握人体运动模式及周围环境的变化规律。
  • 高品质的动态细节创造借助于精简的 Dynamics-Adapter 组件,X-Dyna 能够创造细腻而复杂的运动效果,广泛适应各种情境与角色活动。
  • 无实例生成技能X-Dyna 能够直接利用单一图片制作动画,这一过程不需要依靠目标个体的附加信息,并且也无须进行额外的数据输入或是训练。

X-Dyna的核心技术机制

  • 基础的传播模型解析X-Dyna 利用扩散模型技术,经由渐进式地消除噪音以创建图像和视频内容。
  • Dynamics-适配器组件X-Dyna 的关键组件为 Dynamics-Adapter,这是一个小巧的模块,旨在将参照图片的视觉特征融入扩散模型的空间注意机制里。其运作原理概述如下:
    • 参考图片融合在 Dynamics-Adapter 中,经过降噪处理的参照图片与含有噪音的画面序列一同被送入模型内部。借助于可以进行学习调整的查询投影组件以及初始值设为零的输出投影器,该系统能够把参考图像的颜色和纹理特征作为修正项嵌入到扩散模型里。
    • 维持实时创造功能此组件保证了扩散模型在空间与时间上的创造功能不被削弱,进而维持了动作单元产出平滑且复杂的动态特征的效能。
  • 脸部表情操控除管理体态外,X-Dyna 还集成了一个局部调控单元(Local Regulation Unit),旨在捕捉与个体无关的脸部表情变化。借助这一机制,在不同个体间合成脸部表情片段时能够无形中掌握表情调控技巧,从而达成更加精准的表情迁移效果。
  • 结合多种类型的数据进行培训;X-Dyna 模型利用结合了人类行为录像与自然景观片段的数据集进行培训。这使得该模型能够同步掌握人体运动模式及周边环境的变化规律,从而创造出的视频不仅能展现鲜活的人类动作画面,同时也能逼真地再现如瀑布、降雨和焰火等自然界景象的效果。
© 版权声明

相关文章