中科院与美团合作开发的视频转音频工具——绘制声音

AI工具2年前 (2025)发布 ainav

376 0 0

什么是绘制音频功能？

“AudioSketch” 是由中国科学院自动化研究所与美团点评的研究团队开发的一款视频配音系统。该系统能够根据视频的画面自动生成相应的声效，其工作原理类似于电影制作中使用的 Foley 技术。通过分析视频内容，并结合文本指令、遮罩图像和音频强度信号等多种输入，系统可以生成与视频场景相匹配且在时间轴上协调一致的高质量声音效果。核心设计包含了潜在扩散模型（LDM）、基于文本条件的合成模块、掩码注意力单元（MAM）以及时间和音量控制组件（TLM），这些元素协同工作以保证输出音频的质量和精确度。这款工具为视频创作者提供了强大的支持，使他们在声效设计上能够实现更高的效率与灵活性。

绘制Audio的核心特性

维持内容的一致性该系统会解析视频中的画面信息，并创造与其视觉情境意义一致的音频效果；例如，在检测到有动物出现在屏幕上时，它就会产生对应的动物鸣叫声音。
时刻的一致性所创建的音效与视频内的活动实现了精准对接，保证了音频信号会在恰当的时刻响起，比如当画面中展示物件相撞时，相应的撞击声也会同步发出。
音量统一性该系统依据视频内动作的力量程度来调节音量大小，比如，在画面中距离较远的对象其产生的声音会相对较轻，而接近镜头的对象则会有更大的声响。
请提供需要伪原创改写的具体内容。由于您当前的消息是请求改写的内容描述而非具体文本，我暂时无法执行该操作。一旦有了具体的段落或句子，请告知，我很乐意帮您进行相应的处理。该系统兼容多种输入命令，涵盖视频内容、相关的文字说明、视频遮罩以及音量信号，使音频的创建更为灵活且易于控制。
高精度的实时音效借助多种指令的应用，Draw an Audio 可以创建出与视频画面完美契合的高品质音效，从而增强用户的观感享受。

解析Draw an Audio的工作机制

隐式扩散模型（Implicit Diffusion Model, IDM）作为一个基本的模型架构，主要承担音频数据的基础生成与处理任务。
基于文本的条件生成模型对文本命令进行操作，保证产生的语音与文字说明一致，增强内容在意义上的统一性。
遮罩注意组件（Masking Attention Component, MAC）利用视频蒙版突出显示关键视觉部分，提升影像信息和合成声音之间的协调性。
时段-音量组件（Period-Volume Component, PVC）对诸如音量指示等信号命令进行管理，以保证产生的音频能够在时间轴和音量级别上与视频内容保持一致。

获取Draw an Audio项目的链接

官方网站PROJECT访问 https://yannqi.github.io/Draw-an-Audio 以获取更多信息。
关于arXiv的技术文章在学术资源共享平台ArXiv上有一篇文档，其编号为2409.06135，可以通过提供的链接访问和下载。

使用Draw an Audio软件的场合

影片与录像创作于影片后制阶段，借助 Draw an Audio 工具能够自动为没有声音的影像配上相应的音频效果，包括但不限于行走声或汽车行进声等，从而达到提升工作效率和节省开支的目的。
制作电子游戏通过创建真实的游戏音效来丰富动画与环境，提升用户的沉浸式感受及整体游玩质量。
虚拟实境（VR）与扩增实境（AR）在模拟环境下创造符合场景的声音效果，增强用户互动感受及现实感。
教育与培养生成解说音频以自动配合教育视频，助力学生更有效地理解与掌握知识。
动漫创作通过自动创建动画人物的对话及背景声音效果，使得动画生产过程更为高效。
创建广告创建能够提升广告视频吸引力并加深观众印象的独特音效。