上海交大与网易合作开发高效情感语音 avatar 合成系统 —— EDTalk

135 0 0

EDTalk指的是什么？

EDTalk是由上海交通大学与网易共同开发的一款音频驱动唇部同步技术模型，能够独立控制说话人口型、头部姿态及情感表情的变化。用户只需提供一张图片、一段音频以及参考视频，即可让图像中的人物生动地讲话，并且支持多种自定义情绪表达，例如快乐、愤怒或悲伤等。该系统通过三个简洁的模块将面部动态分解为口型、姿态和表情这三个独立的潜在空间来实现这一功能，每个空间由一组可学习的基础向量表示，并通过这些基础向量的线性组合形成特定的动作表现。这种高效的解耦训练方法不仅提高了系统的训练效率，也降低了资源消耗，使得即使是技术新手也能迅速掌握并探索其在不同场景下的创新应用可能性。

EDTalk的核心作用

声音驱动口型匹配通过上传图像与声音文件至EDTalk平台，可使图中的个体形象发声，并确保嘴型动作与语音完美契合。
个性化情绪展示EDTalk允许用户设定个性化的情绪表达，比如快乐、生气或哀伤，并确保生成的视频里人物的表情能够完美匹配所选的情感音轨。
声音至动作组件EDTalk中的Audio-to-Motion组件能够依据声音输入产生相应的唇部动作，并配合语言情境调整表情，确保与音调的变化保持一致。
提供视频与音频的输入功能EDTalk具备在接收视频与音频资料时生成精准情感的虚拟人物形象的能力。

EDTalk的核心技术机制

高性能松耦合架构EDTalk运用了三种简洁的组件来解析面部运动，并将其分配到三个独特的隐含维度上，具体涵盖嘴巴形状、头姿及情绪表达。此分离策略使得能够单独操控上述各脸部动作而互不影响。
基础向量的表现形式可供学习参考每一个可能的空间通过一系列可以调整的基础矢量来进行描述，这些基础矢量的不同组合决定了具体的行为动作。这样的构想让EDTalk具备了生成带有精确口形、头部位置及情感变化的演讲者面部视频的能力，并且非常灵活多变。
垂直独立性与优化培训方案为保障独立性和加快训练进程，EDTalk通过实施一种高效的培训方案来促进基向量间的正交性，并将其动作用途明确分派到各个区域中去，整个过程无需借助外界信息。

EDTalk项目的仓库位置

官方网站 проекта
注：这里的翻译出现了跨语言的误解。正确的中文伪原创应为：“官方项目网站”或“项目的官方网站”。上述英文翻译并不符合要求，请读者理解并参考正确的中文版本。访问这个链接以获取更多相关信息：https://tanshuai0219.github.io/EDTalk/
GitHub代码库：访问此链接以查看项目仓库 – https://github.com/tanshuai0219/EDTalk
arXiv科技文章访问该链接以阅读最新发布的学术论文：https://arxiv.org/pdf/2404.01647，此文档包含了深入的研究内容。