Adobe 与西北大学合作研发的 Sketch2Sound AI 音频创作工具

111 0 0

Sketch2Sound指的是什么

由Adobe研究院与西北大学共同开发的AI音效生成技术名为Sketch2Sound，它能够依据语音模拟能力及文字指令来创建高质量的声音效果。该系统从语音模拟中捕捉到响度、亮度以及音调这三个关键参数，并将这些信息编码为条件信号输入至文本转音频合成过程中。值得注意的是，Sketch2Sound具有轻量化特性，仅需简单的微调过程和单层线性调整即可适配多种文字到声音的转换模型。这项技术赋予了声音设计师结合语义丰富的文字提示与精确语音模仿的能力，从而极大地提升了音效创作的艺术表现力及控制精度。

Sketch2Sound的核心特性

语音模拟融合文字指引：Sketch2Sound具备解析声音模拟（例如口语化的声音复制）及文字描述的能力，并能够据此创造出匹配的高质量音频效果。
获取调控指令：在对任意声音样本进行分析时，需识别出三项核心调控参数：声音强度、频谱重心及音调分布概率。
创造各种声音：通过运用获取到的控制信号与文字提示，可以生成各种声音，这既涵盖仿制独特的声音也包含创作新颖的声音效果。
简洁版实施：这一效果可在任意文本转语音潜伏扩散模型变压器（DiT）中达成，仅需进行4万步微调，并为每一个控制信号配置独立的线性层。

Sketch2Sound的工作机制解析

提取操控信号：通过应用音频信号处理的技术手段，我们能够从声音的模拟输入中分析并获取响度、明亮程度及音调出现的概率信息。
潜伏传播机制：利用预先训练的从文本转换为声音潜变量扩散模型（DiT），该系统整合了变分自编码器（VAE）与变换器解码组件。此模型能够将音轨压缩成一连串连续的矢量，并通过生成新的潜在矢量序列来创造音频内容。
情境创造：通过在潜伏扩散模型里引入线性映射层，并将调控信号直接融入至模型的噪点潜变量之中，从而达成对该模型进行条件设定的目标。
调整与适应：针对预先训练好的文本转语音模型进行了调整优化，以适应时变控制信号的需求，并通过自我监督的方式完成精细调节。
在进行推断的过程中实施管控：于推理过程中，使用者通过选取各种尺寸的中值滤波器来调控时间细节上的控制信号，在追求语音模拟精度与提升产出音质之间寻找平衡点。
语言的灵活运用及表现力：利用文本提示的灵活语义和语音模拟的表现力，向用户呈现一种自然而直觉化的音频创造途径。