微软开发的VASA-1 – 用于创建静态图片同步嘴形视频的技术框架

175 0 0

VASA-1指的是什么？

微软亚洲研究院开发了名为VASA-1的技术框架，用于将静态图像转化为与音频同步的逼真3D人脸动画视频。利用一张静止的人脸照片结合一段语音片段，该系统能够即时创造出具有高真实感的动态面部表情及头部动作。VASA-1通过精细匹配唇部运动和声音、捕捉复杂的面部细节以及自然流畅的头部姿态变化，显著提升了虚拟角色的表现力与生动性。其主要技术创新在于一个全面覆盖脸部活动和头姿生成机制的整体模型，该模型在脸部潜在特征空间内运作，确保了高质量视频输出的同时也实现了实时处理及响应速度上的优化。

VASA-1的主要特点与功能

高度真实的嘴型匹配VASA-1可以创建与输入的声音文件精准匹配的嘴部运动，从而实现极其真实的讲话体验。
多样的 facial expressions除唇形变化外，VASA-1亦能精准捕获与还原多种复杂脸部表情及细腻情绪层次，显著提升动画的逼真度。
自然头部活动该模型可以仿真自然的头部运动，包括旋转与倾侧，从而使所创造的讲话人脸视频更为鲜活。
高效率的视频制作VASA-1能够实现每秒最高40帧的512×512分辨率视频流的即时创建，并具备非常短的启动延迟时间，非常适合用于实时场景中。
可调节的灵活性生成VASA-1 能够根据诸如主要视线方向、头部位置以及情绪变化等可选条件信号来调控其生成流程，从而增强结果的多样性和灵活性。
应对多样化的输入形式VASA-1具备处理超出其训练数据范围的图片与声音资料的能力，包括艺术品图像、歌声录音及非英文口语内容。

访问VASA-1的官方网络门户

官方网站页面访问此链接以了解有关微软研究项目Vasa的详情：https://www.microsoft.com/en-us/research/project/vasa-1/
（注：由于原文内容主要是指向一个网址，改写时保持了对原意的准确传达，并调整了表达方式。）
关于arXiv上的学术文章访问此链接可获取最新研究详情：https://arxiv.org/abs/2404.10667

VASA-1的操作机制

准备好素材VASA-1 获取两大主要数据源：一幅任意人员的固定面部影像与一段取自任一人士的声音录音片段。
人脸特性抽取通过运用面部编码技术，可以从提供的静态脸庞图片中获取包括三维视觉形态、个体识别码、头姿方位及表情变化参数在内的多种特性。
脸部隐含空间构建创建一个脸部隐式空间，此空间可以显著分离脸部动作与其它元素（例如个人特征及外表），同时具备详尽的表情刻画和运动微差异的表现力。
扩展模型的培训过程开发一种依托扩散机制的Transformer模型，此模型能够依据提供的语音及任选附加指令，在脸部潜态空间里创造出完整的面部表情变化与头部动作。
条件信息融合把重点视线角度、头位间距及情绪变化等调控指令当作参数，送入扩散算法里，用以引导脸部动作的创建。
生成面部动作及头部运动通过应用预先训练完成的扩散模型，依据给定的声音特性与环境信号，创建出描绘脸部动作及头部移动模式的潜在编码流。
生成视频图像帧通过运用面部解析技术，并结合从编码模块获取的表情与个人特质信息，依据所创建的脸部动作以及头姿变化的隐形数据流，制作出完整的视频画面。