5月13日讯息,科技媒体Marktechpost昨日发布博文称,英伟达与麻省理工学院(MIT)联合推出了一项突破性技术——Audio-SDS,这是一项基于文本条件的音频扩散模型扩展技术。
众所周知,音频扩散模型在生成高质量音频方面展现出了卓越性能。然而,这些模型面临的挑战在于如何优化明确且可解释的参数设置。
针对这一难题,英伟达和MIT的研究团队首次将Score Distillation Sampling(SDS)方法引入音频领域。这项创新技术结合了预训练模型强大的生成能力和参数化音频表示的优势,无需依赖大规模特定领域的数据集,即可完成以下三大任务:
1. FM合成器参数校准
2. 物理冲击音合成
3. 音源分离
值得注意的是,SDS技术此前已在文本生成3D图像和图像编辑领域得到广泛应用。此次英伟达将其成功移植到音频领域,并与预训练模型的生成先验知识相结合,实现了通过高级别的文本提示直接调节FM合成参数、冲击音模拟器或分离掩码的技术突破。
研究团队通过基于解码器的SDS方法、多步去噪处理和多尺度频谱图分析,实验结果证实Audio-SDS在以下方面表现优异:
– 主观听觉测试中获得高度评价
– 客观指标(如CLAP分数和信号失真比SDR)达到先进水平
Audio-SDS技术的核心创新在于,它实现了用单一预训练模型支持多种音频任务的目标,显著降低了对大规模领域特定数据集的依赖。尽管如此,研究团队也清醒地认识到当前技术仍存在一些局限性:模型覆盖范围有限、潜在编码伪影问题以及对优化过程的敏感度等问题亟待进一步解决。
相关参考文献
© 版权声明
文章版权归作者所有,未经允许请勿转载。