ID-Animator —— 由腾讯等公司开发的个性人物视频创作平台

AI工具2个月前发布 ainav
120 0

ID-Animator指的是什么?

由腾讯光子工作室、中国科学技术大学及中科院合肥物质科学研究院的研究团队共同开发的ID-Animator是一项零样本人类视频创作技术,能够利用单一参照人脸图像创造出具有个性化的视频内容,并保持原有人物特征不变。此外,该系统还可以依据文本指示来调整生成的视频细节。通过整合预先训练好的文本到视频扩散模型与一个轻量级的人脸适配器模块,ID-Animator实现了快速且高效的个性化视频制作流程,在此过程中无需针对特定人物进行额外定制化培训。为了进一步增强生成视频的身份准确性和质量水平,研究团队特别构建了相关数据集,并采用了随机选取面部参考样本的训练策略来优化系统性能。

ID-Animator

ID-Animator的核心特性

  • 调整视频中的人物情境(重构人物场景)ID-Animator利用给定的参照图片与文字说明来修改视频内人物的情境细节。比如,依据文字指令可以改变人物的发式、着装风格以及场景环境,还能设定具体的肢体语言或行为模式,进而构建出别具一格的人物故事情节。
  • 更改年龄与性别(Age and Sex Modification)此模型具备依照需求修改视频内人物年龄与性别的能力,满足多样化的视频内容及样式要求。例如,它可以创造出年轻面孔变得苍老或是男性形象转变为女性的画面效果。
  • 身份融合(Identity Blending)ID-Animator具备将两种独特的个性特点融合的能力,并能依据设定的比例创建出拥有结合特性的影片内容,这对于塑造新颖的角色形象或是组合现实人物的特点极为实用。
  • 和ControlNet的集成ID-Animator能够与包括ControlNet在内的多种高精度条件模块相配合,用户可以通过输入单一或者多张引导图片来创建紧密贴合这些引导图样的视频流,这种方法特别适用于制作含有特定行为或情境的影片内容。
  • 社群模型整合ID-Animator还能兼容来自各类社区平台(例如Civitai)中的多种模型,在未经过专门训练的情况下依然能够高效运行,并且确保了面部特性和动态生成的一致性与稳定度。

ID-Animator

访问ID-Animator的官方网站入口

  • 该项目的官方页面位于:https://id-animator.github.io/
  • 在arXiv平台上发布的一篇学术文章:https://arxiv.org/abs/2404.15275
  • Git仓库地址:https://github.com/ID-Animator/ID-Animator

ID-Animator的运作机制

ID-Animator的工作原理

  1. 预先训练好的文字转视频扩散模型ID-Animator依托于一款预先训练好的文字转视频(Text-to-Video, T2V)扩散模型,此模型具备依据文字说明来创建视频片段的能力。
  2. 脸部兼容组件(Face Compatibility Module)为了创建符合特定人物特征的视频内容,ID-Animator集成了一种简洁高效的面部调整模块。该模块利用对面部隐含特性的分析来存储和表达与个体识别相关的信息嵌入。
  3. 基于身份定位的数据集合构建研究人员创建了一套以身份为中心的数据集合,涵盖了分离的人体特性和行为描述技术,并且利用了由所建面部图片库抽取出来的脸部特性。
  4. 利用随机脸部参照进行训练的技术ID-Animator通过使用随机选取的面部图片来进行培训,这种方式有利于区分不涉及个人身份的画面信息和个人独有的脸部特性,确保模型可以集中精力于识别和学习那些定义个体的关键特点。
  5. 文本与面容特质的结合ID-Animator整合了文本特性和面部特性,并利用注意力机制实现二者融合,从而创建出既能准确反映文字内容又能保持个体特色的视频。
  6. 创建流程在制作视频的过程中,ID-Animator起初会获取一张脸部参照图及其对应的文字符号说明。随后,通过脸部调整模块把该参照图片的特点转化为嵌入编码,并把这些编码同文字特性一同送入扩散网络中处理,以完成视频的创建。
  7. 改进与培训为增强模型的表现力,ID-Animator在训练时采用随机脸部图片作为参照点,以此来降低那些不相关于个人特色的因素的干扰,并借助如分类器自由指引(Classifier-Free Guidance)之类的先进技术提升视频制作的质量。
  8. 适应性和可延展性ID-Animator旨在支持包括AnimateDiff在内的多个预先训练好的文本转视频(T2V)模型,这种兼容性让它能够无缝接入现有架构,并且适用于各种应用场景的拓展。
© 版权声明

相关文章