多声源效果器 —— 由Adobe与密歇根大学共同开发的音频创作工具

AI工具2年前 (2025)发布 ainav

507 0 0

MultiFoley指的是什么

MultiFoley是一款由Adobe Research与密歇根大学合作开发的声效创建工具，它能够通过文本、音频和视频等多种输入方式来生成精确匹配场景需求的Foley声音效果。该系统允许创作者依据文字描述、参考录音或是特定视频片段来自定义并同步产生相应的音效，从而提升观众的整体视听感受。MultiFoley通过对大量网络视频素材及专业声效记录进行联合训练，实现了高保真和全频段（48kHz）的音频输出能力。此系统为内容创作者提供了高度灵活的声音设计选项，助力其制作出清晰且富有创新性的音效作品。

MultiFoley的核心特性

由文本操控的音效制作通过文本指令来指导并创建同视频画面协调的音频效果，这些效果可以是模拟真实环境的声音或是富有想象力的音效。
通过音频操控的Foley效果制作允许用户挑选参照音频来自一个音效集合，然后把该声音融入无音轨的影片里，并确保与影像协调一致。
扩展现有的Foley音效范围对某些音频轨进行延伸处理，以创造出全面的Foley音效。
质量管理通过在文本中标注质量指标，创建出高水准的全方位频率（48kHz）声音文件。
多种模式调控融合文本、音频与视频的触发信息，实现精细的声音设计调控。

MultiFoley的核心技术机制

协同培训基于互联网视频资料中的劣质音轨及专业的声效录制样本进行训练，以创造高清晰度的全域音频输出。
传播转换器（Propagation Transformer）利用扩散模型从随机噪音出发创造新的样本实例，应用于由视频指导的 Foley 音效制作，并融合多种模式进行调控。
高品质声音自动编码器（DAC-VAE）利用变分自编码器(VAE)技术，把采样率为48kHz的声音信号转换为频率为40Hz的潜藏特性表示形式，并应用于声音与影像的同步处理中。
暂停视频编解码器功能应用于音视同步技术中，先将视频转化为特定的特征码，并与音频的隐式编码结合使用。
多重条件下的训练方法使模型能够灵活适应各种后续任务，例如音频拓展与基于文本的声音创作。
多重关注机制提升模型的表现力，同时探索和整合多种特征或关联性。