旋律工匠——智能AI音乐系统,擅长解析、创作与修改乐曲

AI工具5个月前发布 ainav
118 0

SongMaker是指什么

清华大学深圳国际研究生院与香港中文大学等机构联合开发了一款名为SongCreator的人工智能音乐创作系统。该系统能够根据给定的歌词自动生成包括人声演唱及背景伴奏在内的完整曲目。借助双序列语言模型(DSLM)和注意力掩码策略,SongCreator具备理解和处理多种相关歌曲生成任务的能力,涵盖内容编辑与创新创作等范畴。尤其在从歌词到音乐成品以及仅产生人声音轨的任务上表现优异,并且能够分别调整输出作品中的人声及伴奏的音效特性。

SongCreator

SongMaker的核心特性

  • 从歌词创作至完整歌曲(From Lyrics to Full Composition)依据给定的歌词创作一首集演唱与伴奏于一体的完整的曲目。
  • 从歌词转化为演唱(Vocalization from Lyrics)根据歌词创作 vocals 部分,不含乐器伴奏。
  • 音乐伴奏融入旋律(Accompanying-Music Integrated into Melody)提供背景音乐后,创作能够与之和谐匹配的 vocals,从而构成一首完整的曲目。
  • 从人声至旋律(Vocals-to-Melody)根据提供的 vocals,创作出相应的 accompaniment,以形成一首完整的曲目。
  • 音乐剪辑(Music Editing)对现有音乐作品中的某些部分进行调整,以适应指定的歌词内容,并确保整个曲目的流畅衔接。
  • 声音剪辑(Vocal Adjustment)在修改歌曲的 vocals 时,保留其乐器编配不变。
  • 旋律延展(Melody Extension)根据给定的伴奏或 vocals,创作出音乐的连贯片段。
  • 无需条件的音乐创作创作音乐或演唱时无需依赖歌词的存在。

音乐制作技术的运作机制

  • 双重序列语言模型(DSLMM)利用DSLM来获取声乐与伴奏的细节信息。该模型配备有两个解码器单元,每个都专注于处理声乐或伴奏部分,并借助一个动态双向交互注意机制来精准地反映二者间的互动效果。
  • 关注点遮罩方法制定一套注意力遮罩方法。这些方法能够让模型以一致的机制,在包括修改、分析和创作在内的多种音乐制作任务中有效运作。
  • 多项任务培训通过实施多任务训练来增强它在创作、编排及解析音乐方面的技能,以应对多样化的复杂音乐环境。
  • 状态指示符支持多样化的选择性输入,如歌词、声音指导及背景音乐指示等,确保了在创作音乐过程中的极大灵活度与控制力。
  • 语义标记(Semantic Markers)采用BEST-RQ模型对无标签数据集进行训练,并通过向量量化来抽取歌曲中的语义标志。这些标志包含了恢复音乐所需的所有关键音效与意义信息。
  • 隐式扩散模型(Implicit Diffusion Model, IDM)通过运用LDM技术,可将语义标记转化为音质卓越的音乐作品。该系统整合了变分自编码器(VAE)与扩散模型两大组件,旨在创造既保持高度真实感又具备丰富乐感的音频内容。

SongMaker的仓库位置

  • 官方网站建设项目:github上的songcreator站点
  • 关于arXiv的技术文章访问链接以获取文件的内容:https://arxiv.org/abs/2409.06029

    (注:由于原始内容是一个指向学术论文PDF文档的直接链接,伪原创改写时调整为引用摘要页面的方式,并建议通过该页访问具体内容,保持了引导读者查看原文的目的不变。)

SongCreator的使用情境

  • 音频创作音乐创作者与作曲家在构思阶段会制作歌曲的初步版本,进行速效模型的设计,或者于创作旅程中探索创意火花。
  • 教育与求知在音乐教育领域里,用作辅助教学的手段,以协助学生掌握乐曲构造的知识,并进行创作与编排的学习。
  • 休闲与嬉戏于视频游戏与交互式媒介内,依据当前的游戏场景即时创造配乐,以增强用户的沉浸体验。
  • 创意写作视频制作人与播客能够为他们的项目量身打造独一无二的音乐,同时不必雇佣专业作曲家。
  • 宣传与推广广告业界迅速创作出与品牌形象及广告理念相契合的音乐。
© 版权声明

相关文章