TANGO —— 由东京大学与CyberAgent AI实验室共同开发的声音控制全身动作视频创作平台

171 0 0

TANGO代表的是什么？

TANGO 是由东京大学与 CyberAgent AI Lab 联合开发的一款开源框架，致力于生成与指定语音同步的全身手势视频。该技术依托分层音频运动嵌入及扩散插值网络，精准匹配目标语音和参考动作库中的片段，以确保产出高质量且动作精确同步的视频内容。这项创新显著降低了制作各类视频所需的成本，包括新闻播报、虚拟角色解说以及虚拟 YouTube 内容创作等场景，并为用户提供了高效经济的选择方案。

TANGO的核心特性

由声音控制的整体肢体动作创建依据目标语音音频创建与其节奏相匹配的整体肢体动作录像。
高质量视频创作保证所创建的视频具备高度的真实感，动作流畅，并与音频内容精准对应。
多模态融合对齐利用层级化的音频运动编码技术，确保音讯与影像动作间的精确同步。
中间帧创建利用扩散插值网络创建高精度中间帧，以保障视频动作流畅衔接。
维持外观的一致性确保生成的视频中人物形象及背景与参照视频一致，以防止出现视觉上的差异。

TANGO的核心技术机制

层次化音频动作编码(AuMoCLI)通过隐式的层级结构融合音效与行为的数据嵌入空间来编码相关联的声音及行动信息。利用对比学习的方法，把声音片段和相应的身体动作转换至同一潜在维度内，并使得相匹配的声动对在该空间中更为接近，从而达到精确的动作搜索目的。
传播插值架构（DisInterp）该技术利用改进的视频生成扩散模型来创造高品质的中间帧。它整合了一个参照动作组件以及单应性背景流动机制，确保了生成的影片与原参考片段之间视觉风格的一致性。这种方法还能显著减少传统基于流插值过程中常出现的模糊和重影现象。
动作图像搜索技术TANGO采用了一种依赖于学习的技术来寻找最适合目标语音音频的动作路径，而不是仅仅依靠声音的初始特征和关键字匹配。这种方法能够更有效地应对由于讲话人差异导致的声音与动作不同步问题，并且还能解决参考视频中可能缺失某些关键字的情况。
图形架构TANGO通过有向图的形式展示视频帧及其有效过渡关系。基于提供的目标音频，该系统会抽取其时间特性，并利用这些特性来搜寻并选取一段连续播放路径中的片段子集。在原始参考视频缺乏必要的转换连接时，ACInterp会被用来创造平滑的过渡画面。

TANGO项目的网址

官方网站PROJECThttps://github.com/pantomatrix/TANGO
关于arXiv上的科技文章该论文可以在如下链接中找到：https://arxiv.org/pdf/2410.04221，提供了深入的研究内容。
网上试用演示版：访问H-Liu1997开发的TANGO项目页面，请前往 https://huggingface.co/spaces/H-Liu1997/TANGO