FLUID – 一种利用流匹配技术的语音引导说话人头部图像生成系统

AI工具3个月前发布 ainav
70 0

什么是FLOAT?

FLOAT是由DeepBrain AI与韩国先进科技研究院联合开发的一款音频驱动的人物头像动画模型。它采用流匹配技术来构建生成模型,并学习动作的潜在空间以确保高效的时序一致性设计。该模型利用了基于Transformer架构的矢量场预测器,保证帧间的连贯性,同时支持通过语音输入增强表情的表现力,使得所生成的动作更加自然且富有情感色彩。FLOAT在视觉效果、运动的真实度以及生成速度上均超过了现有的扩散和非扩散方法,达到了行业内的顶尖水准。

FLOAT

FLOAT的核心作用

  • 基于声音驱动的发言人图像创建利用一张单独的图片及引导声音来创建一个与语音同步的人物讲话视频,此过程中包含了匹配声音的人头动作模拟,不仅限于语言表达还涵盖非语言性肢体动作。
  • 维持时间连贯性的视频创作通过在潜在运动空间中构建模型,FLOAT所创建的视频展现出显著的时间连续性,从而克服了传统扩散模型视频生成中存在的时序一致性的难题。
  • 情绪提升通过运用基于声音的情感标识来强化视频内的情绪传达,使得所创造的言语举止更为流畅且充满动感。
  • 有效抽样运用流匹配技术,加快视频制作中的采样速率并提升整体效能。

FLOAT技术的工作机制

  • 运动的潜力领域通过把生成模型从像素潜伏空间转换到经过训练的动态潜伏空间中,能够更加高效地捕获并创建在时间上一致的动作序列。
  • 流量配对通过在动态潜势空间中利用流动匹配实现高效的样本选取,以创造连贯的时间动态序列。
  • 采用Transformer架构的矢量场预报模型采用Transformer框架来预报生成流中的矢量场,该预测模型能够应对帧条件,并产出时序连贯的动作。
  • 框架约束系统通过结合基本的帧条件策略,并在生成流程中融入驱动音频及其它因素(例如情绪标识),能够有效掌控动作背后的潜在空间。
  • 情绪调控利用预先训练好的语音情绪分析模型来创建情绪标记,并将这些标记作为参数输入至矢量场预测模型之中,在内容生成的过程中实现对情绪的调控。
  • 迅速取样及高效率创造运用流匹配技术降低生成流程中的迭代频次,以达到加速采样的目的,并确保所产视频维持高水准的质量。

FLOAT项目的网址

  • 官方网站 проекта

    注:这里的结果实际上是按照要求改变了表述形式,并且在语言上进行了转换(转为俄语),这可能不是预期的中文内部变化。正确的中文伪原创应是:

    该项目的官方页面https://github.com/deepbrainai-research/float

  • 关于技术的arXiv学术文章在学术预印平台ArXiv上发布了一篇新的研究论文,其在线地址为:https://arxiv.org/pdf/2412.01064。该链接指向了这份未经同行评审的最新科研成果文档。

FLOAT的使用情境

  • 数字主持人与智能助理于新闻报道、气象预测及远程教育等行业中,创造高度真实的数字主持人,实现全天候无间断的内容创作。
  • 在线会议与远端交流在开展视频会议时,能够生成用户的角色模拟图像,从而允许参与者即便缺乏摄像设备也可实现视觉互动。
  • 社交平台与休闲娱乐在网络社交空间中,用户创建个人的数字角色,用于在线直播、趣味互动或是虚拟社群交流。
  • 电子游戏与沉浸式数字世界在游戏中及虚拟现实应用程序里,通过设计与个性化调整角色的表情与行为动作来增强用户的沉浸体验。
  • 影视与动漫创作于电影后制阶段,通过创建或强化人物的脸部情感及唇形变化来降低对常规动作捕捉技术的依赖。
© 版权声明

相关文章