M-A-P 由港科大携手 YuE 开发的开放源代码音乐人工智能创作系统

AI工具3个月前发布 ainav
239 0

什么是YuE呢?

YuE 是由香港科技大学与 Multimodal Art Projection 团队共同研发的一款开放源码音乐创作人工智能模型。它能够把歌词转换成完整的曲目,并支持诸如流行、金属、爵士及嘻哈等多种音乐流派,同时也兼容英语、中文、日语和韩语等不同语言的歌词输入。通过运用增强型语音分割技术、双路径分词方法以及歌曲链式构思生成策略并结合三阶段训练流程,YuE 在处理长篇文本关联性问题、复杂音频信号解码及避免内容偏差等方面表现出色,确保了所创作音乐作品拥有连贯结构和悦耳旋律。该模型的代码完全公开透明,允许用户进行自由使用与二次开发,并且提供了一系列可调节参数供使用者通过命令行方式来自定义输出曲目的风格或声乐特质等细节。

YuE

YuE的核心特性

  • 将歌词转化为旋律优美的歌曲可以将提供的歌词转换成一首完整的曲目,包括 vocals 和 accompaniment。
  • 支持多种音乐风格涵盖多种音乐类型,包括流行、金属、爵士和嘻哈等。
  • 高品质创造利用各种技术创新,保证创作出的音乐作品既流畅又具高水准。
  • 多种语言兼容性支持提供包括英语、中文、日语及韩语在内的多种语言的支持。
  • 长期从事音乐创作工作能够创作出时长达到 5 分钟的完整的音乐作品。
  • 开放源代码及高度可配置性代码及模型均已开放源码,使用者能够随意利用与调整。
  • 情绪与样式相协调能够依据歌曲词句的情绪色彩创造出相符合的音乐类型。
  • 多模态应用能够与多种多模态模型融合,应用于多媒体艺术的创造之中。

YuE的运作机制

  • 提升语义理解的音频分割工具通过运用语义强化型音频分割技术,YuE 有效地减少了培训开支,并加快了模型的优化进程。这种方法能够深入解析歌词中的含义,并将其巧妙地融合到音轨中,从而创作出更加贴合歌词意境的乐曲。
  • 双重分词方法YuE 发展出一种双重分词方法,在未对 LLaMa 的解码器-only 架构进行任何调整的前提下,实现了音轨的同步声乐与乐器建模。该模型能够同时产出主唱音频及相应的伴奏部分,并保证二者在节奏和旋律上的一致性。
  • 歌曲文字创意连贯生成YuE 创新应用了歌词链条思维方式的技术方案,让系统能够在满足特定歌词要求的前提下分步创作完整的音乐作品。这一技术有助于更有效地管理较长段落的信息关联,并保证所创造的歌曲在整个架构中维持一致性和流畅度。
  • 三个步骤的培训计划YuE 实行了分三个阶段的培训计划,以保障更佳的扩展能力、音乐表现力和对歌词内容的有效控制。具体而言:
    • 初期阶段在基本模型的训练过程中,掌握音乐创作的基础规律。
    • 第二个阶段通过对大量样本进行调校以确保风格与情绪的一致性,该模型能够创作出具有特定风格和情绪的音乐作品。
    • 第三个阶段利用包括强化学习在内的技术来改进和调整偏爱,以保证产生的音乐更加迎合人的美学期望。

YuE项目的仓库位置

  • 官方网站项目页面:访问此链接以查看相关内容 -> https://map-yue.github.io/
  • Git代码库:在GitHub上可以找到名为YuE的多模态艺术投影项目,其仓库地址为https://github.com/multimodal-art-projection/YuE
  • HuggingFace的模型集合访问此链接以查看名为“YuE-s1-7B-anneal-en-cot”的模型页面:https://huggingface.co/m-a-p/YuE-s1-7B-anneal-en-cot

YuE的使用情境

  • 音乐制作音乐制作者能够借助YuE迅速创建旋律与伴奏,从而启发新的创意思路。依据用户提供词句,系统能制作出贴合所需情绪及格调的独特乐曲。
  • 电影和视像创作创作适合电影、剧集及短片的配乐,精准契合各种情境的情绪与气氛。设计易于记忆的音频标识用于广告,增强品牌的传播效果。
  • 电子游戏配乐创建与游戏场景相契合的背景音效,以提升玩家的游戏沉浸体验。
  • 社交网络信息为像 TikTok 和 Instagram 这样的平台上制作独具特色的短视频配乐。
© 版权声明

相关文章