腾讯开发的AI音乐创作大型模型 —— 琴乐��型

AI工具2个月前发布 ainav
139 0

琴乐大型模型指的是什么?

人工智能音乐创作工具“琴乐”由腾讯AI Lab和天琴实验室联合开发而成。此大模型能够依据输入的关键词、描述性文本或音频素材自动生成立体声音频及多轨乐谱。用户还能利用该模型进行自动化编辑工作,例如继续生成音乐内容、替换特定音轨或小节,并调整乐器种类与节奏设置。“琴乐”现已部署于腾讯音乐启明星平台供公众免费注册试用。未来,研发团队意图增强其功能以实现自动生成人声和歌词的能力,从而更全面地满足各类音乐创作需求。

琴乐大模型

琴音大模型的特性与优势

  • 创作旋律该系统具备利用用户提交的中文或英文关键字、叙述短语及声音资料来智能化创作乐曲的能力。它不仅能解读文字信息来进行作曲,还能分析音源内容,完成音乐作品的自动化构建。
  • 音乐记谱创作除创建音频外,「琴乐大模型」亦能够制作详尽的曲谱,涵盖旋律线、和声层、背景音乐及节奏部分等多重音轨,极大丰富了用户的音乐创作层次。
  • 智能修改该模型能够执行多项自动化编辑功能于产生的乐谱上,涵盖继续编写音乐片段、重制选定轨道或节拍部分、变更编曲风格、更改使用的乐器种类及调节节拍等操作,显著增强了创作过程中的自由度与工作效率。
  • 音轨与文字同步借助对比学习方法,该模型创建了一个共用的特征领域,在这个领域中它能够把声音标识或是文字说明同实际的声音片段匹配起来,并以此作为生成过程中的调控信息,从而提升了所创造音乐的相关度与精准性。
  • 音乐符号/声音特征抽取该系统可以将音乐记谱或声音文件转化为一串独特的标识符序列(即tokens),这为大型语言处理模型进行后续分析和预测奠定了基石。
  • 大型语言模型的预估采用仅含解码器的架构,该模型经由特征预估(即下一个标记预测)的方式进行训练,所生成的序列能够被转化为乐谱或声音文件,从而完成了从文本形式向音乐内容的转变。
  • 声音数据修复借助流匹配与声码器技术的应用,该模型可以将预估的音频特征序列转化为清晰的听觉输出,显著提升了声音的真实性及音质水平。
  • 音乐原理遵守在创造音乐时,「琴乐大模型」依据音乐理论,保证音调、伴奏及节奏等要素既合乎逻辑又契合人们的听觉享受。

琴乐大模型

探索与应用琴乐大型模型的方法指南

  1. 账号的创建及接入过程前往腾讯音乐启明星网站(https://y.qq.com/venus/#/venus/aigc/ai_compose)创建新账号,或者直接用你的已有账号进行登陆。
  2. 提供生成要求于体验界面中,录入有关音乐的词汇、句子或是描绘,系统将以其为参考来创作音乐。
  3. 挑选音乐系统��型当前可供选择的只有琴乐音乐生成大模型版本1.0。
  4. 挑选歌曲长度可以选择从10到30秒之间的音乐长度
  5. 创作旋律请点击启动创作按钮,在大约一分钟的等待之后,您的音乐作品将会完成。完成后您能够播放并保存这首音乐。

钢琴音乐大型模型的运作机制

  • 语音与文字同步的模型该部分利用对比学习方法来建立音频及其文字说明间的共同特性空间。这种方法使模型能识别出文本与声音内容的含义关联,在创造阶段可将此信息用作调控参数。
  • 音乐记谱/声音特征抽取该模型能够把音乐乐谱或是声音信号转化为一系列离散的特点序列,这些特点既可以代表MIDI数据的各种特性,也可能是对预处理过的音頻频谱进行编码与压缩后得到的表现形式。
  • 大型自然语言处理系统采用仅含解码器架构的大规模语言模型来进行下一步特征预测训练。此类模型具备依据给定的特性序列推测后续特性的能力,进而创造连贯的音乐成分。
  • 流量配对及语音合成技术于创建声音文件时,该系统采用流动对齐技术和语音合成组件,把预估的声音特征串转变成清晰可闻的声音输出,并提升了音质的真实性。
  • 多个模块共同协作运作「琴乐大模型」整合了若干个组件,它们相互配合来完成音乐创作的任务。比如,在训练阶段会利用音频与文本的同步模型生成条件调控信息,而到了推断阶段,则采用文字特征来进行调控指引。
    琴乐大模型的模块
  • 音乐原理遵守于创作乐曲之际,系统须依循音律原理,涵盖旋律走向、和声配置及节拍布局等方面的合理安排,以此保障所创作品契合人们的聆听习性和美学要求。
  • 自动化修改和校正该模型能够自动编辑产生的乐谱,包括继续编写内容、重制特定轨道或段落,并调整乐器种类及节奏设置,从而让音乐创作更为灵活多变。
  • 从起点至终点的创建过程「琴乐大模型」实现了从文字输入直接转换为音频输出的全流程自动化处理,大幅降低了对人力操作的需求,并显著提升了音乐制作的工作效率。
  • 大型双重-blind听力测试经过广泛的双盲听力测试,该模型的内容生成质量获得了证实,并在多个主观评价指标上超过了行业基准。
© 版权声明

相关文章