DeepMind发布V2A方案，实现为静默视频生成真实声音效果

AI工具2年前 (2025)发布 ainav

341 0 0

在人工智能的研究中，谷歌旗下的DeepMind公司又一次实现了显著的技术进步，并发布了一个名为V2A（Video-to-Audio，即从视频转换到音频）的人工智能模型。这项创新能够通过结合视频画面与文本说明来为没有声音的视频创作出包含对话、背景音效及音乐在内的丰富音频轨道。

V2A技术不仅能与DeepMind开发的视频生成工具Veo兼容，还支持与其他公司的视频生成模型，比如Sora、可灵或Gen 3等进行整合，在视频中加入戏剧性的背景音乐、真实的音效或是贴合角色情感和情境的对话。此外，该技术也可用于给传统的影像资料，例如历史档案片及默片配上声音效果。V2A技术的一大优势在于其能够为每段输入视频生成大量的个性化音频轨道。

来自DeepMind的研究小组指出，他们的V2A架构利用了扩散模型的技术，在同步展示视频和生成声音方面取得了极为逼真且令人愉悦的效果。此系统首先将输入的视频转化为一种压缩形式，随后通过视觉信息及文本指令引导下的扩散模型，从随机噪音中逐步形成音频信号。最后一步是把产生的音频数据解码并转换成波形格式，并与原视频内容同步整合。

为提升音质水平，DeepMind于训练环节加入了附加数据元素，如人工智能合成的声音注释及会话的文字记录。这使得V2A能够学会把特定的音响现象同各种视觉画面关联起来，并依据这些注释和文字内容作出反应。

尽管V2A技术展现出一定的能力，但它同样面临若干挑战。比如，生成音频的质量直接受到输入视频品质的影响。若视频含有超出模型学习范围的伪影或失真现象，则可能严重损害输出音频的效果。另外，该技术在处理唇形同步方面仍存在不稳定性的问题。

截至目前，V2A还未正式对外公布。DeepMind正从顶级创意专家及影视制作者那里搜集意见，旨在保障V2A能为创意群体带来正面效应。该公司强调，在扩大使用权限前，会对V2A进行详尽的安全审查与检测。

（详细信息：Google DeepMind – 为视频生成音频）

# AI工具