DITTO-2 —— 由Adobe与加州大学共同研发的音乐创作模型

AI工具 2个月前 ainav
78 0

DITTO-2指的是什么?

由 Adobe 和加州大学的研究人员共同开发的 DITTO-2 是一种新型的音乐创作工具,其设计目标是通过对扩散模型推理时间进行优化来达成快速且可控的音乐制作能力。该模型采用扩散模型推理时长优化技术(ITO),并利用了诸如一致性模型 (CM) 和一致性轨迹模型 (CTM) 的蒸馏方法,在速度上实现了超越实时生成的效果。DITTO-2 能够执行广泛的音乐创作任务,涵盖音频修复、内容扩展、音量控制、旋律调整以及结构化作曲等应用领域。此外,它还能够将无条件的扩散模型转变为具备高级文本指导功能的系统,通过优化 CLAP 分数来实现从文字到音乐的高度精准转换。

DITTO-2

DITTO-2的核心特性

  • 音频恢复及延展DITTO-2 具备音乐修复与扩展功能,可以完成对现有音频片段的补充及延展。
  • 力度调控用户能够定义音乐力度的变化轨迹,比如由弱渐强或是由强渐弱的趋势。
  • 音调掌控借助提供的参照曲调,DITTO-2 可以创造出相契合的音乐作品。
  • 音乐构造调控提供对音乐架构调控的支持,比如设定A部分与B部分的时间长度。
  • 从文本转化为音乐创作DITTO-2 能够把无条件扩散模型转化为具备高级文本操控功能的版本,其方法是通过提升 CLAP 得分来确保从文字转换为音乐的质量卓越。
  • 有效推论及改进利用诸如一致性模型(CM)和一致性轨迹模型(CTM)等模型蒸馏方法,DITTO-2 实现了超越实时的生产速率,并且还优化了其在保持贴合度和提高产出品质方面的能力。

DITTO-2的核心技术机制

  • 传播模型精炼DITTO-2 集成了两种模型蒸馏方法:一致模型(Consistency Model, CM)和一致性轨道模型(Consistency Trajectory Model, CTM)。CM 技术把基础的扩散模型简化成一个用于单步取样的新网络,其训练方式是通过减少学习模型与指数移动平均副本之间的局部一致性损失。CTM 在此基础上增加了灵活性,使得在扩散路径上的任意两点间可以进行跳跃采样,从而实现更加高效的样本获取途径。
  • 推理时效改进(ITI)DITTO-2 利用推理时间优化(Inference-Time Optimization, ITO)技术,在生成内容的过程中动态地微调其内部状态,以更精确地满足特定要求或目标。ITO 的运作原理是通过对初始噪声潜变量进行优化调整来实现的,这涉及到使用特征提取函数、匹配损失函数以及诸如梯度下降之类的优化算法来修改模型的状态参数,从而能够对音乐的强度、旋律和结构等元素实施精准控制。
  • 代理改进及分阶段解码过程DITTO-2 采用了代理优化技术,实现了优化流程与最终的译码步骤的独立处理。在优化环节中,它利用单次抽样的方式来迅速评估噪声潜在变量;而在译码阶段,则借助多次抽样以产出高品质的音乐作品。通过这种分工策略,在确保快速推理效率的同时,大幅改善了生成音乐的质量水平。
  • 有效培训与运用DITTO-2 的培训费用相对低廉,只需大约 30 多个小时的 A100 GPU 训练时间。此外,该模型能够处理多项音频创作工作,涵盖音轨修复、延展创作、动态调整、旋律调控及音乐架构管理等功能。

DITTO-2的工程链接

  • 官方网站PROJECT:访问该项目的网络页面可以前往 https://ditto-music.github.io/ditto2/
  • 关于arXiv的技术文章在学术论文数据库中可以找到这篇编号为2405.20289的文档,其完整链接是https://arxiv.org/pdf/2405.20289。

DITTO-2的使用情境

  • 音乐的制作与创造DITTO-2 能依据文字说明创作出高品质的音乐,该模型具备根据给定描述产生相应音乐的能力。
  • 即时音乐创作DITTO-2 能够以超过实时的速度进行生成,非常适合要求即时产出音乐的应用场合,例如在即兴音乐制作或者现场演出中。
  • 从事音乐教学的人员及学员DITTO-2 能够即时创作实例音乐,助力学生们更深入地掌握与研习音乐理论知识。教育者只需键入具体的曲调或是和声框架,就能迅速创建出示范乐曲,适用于课堂教学展示。
  • 音频书籍及多媒介内容制作者DITTO-2 能够把文字叙述转化为音乐,并且能够为有声书、播客及各类多媒体创作提供背景乐。
版权声明:ainav 发表于 2025-01-22 16:01:21。
转载请注明:DITTO-2 —— 由Adobe与加州大学共同研发的音乐创作模型 | AI导航站