清华团队开发的音乐信息检索系统 CLaMP 3

AI工具4周前发布 ainav
54 0

CLaMP 3指的是什么?

由清华大学人工智能学院朱文武教授的研究团队开发的CLaMP 3是一个先进的多模式及多语言框架,专注于处理与搜索相关的音乐信息。此系统运用对比学习方法,实现了将诸如乐谱(如ABC符号)、音频特征(例如MERT)和表演数据(比如MIDI文本格式)等不同类型的音乐内容与其在27种明确支持的语言中的描述对齐到同一表达空间的功能,并且能够泛化至100多种语言。CLaMP 3适用于执行诸如从文本查找匹配的音乐、通过图像搜索相应的乐曲以及进行零样本下的音乐分类和语义相似度评估等多种跨模式检索任务。

CLaMP 3

CLaMP 3的核心特性

  • 多模态音频搜索请提供需要改写的具体内容,以便我能够帮助您完成伪原创的改写工作。
    • 从文本到音乐的搜索依据文字说明(涵盖100种语言)寻找与其意义相契合的音乐作品。
    • 从图片到音乐的搜索利用图像产生的说明文本(例如由BLIP模型创建的字幕)来寻找相应的音乐作品。
    • 多模式音乐搜索在各种音乐表现形态(比如曲谱、MIDI文件及声音记录)间执行搜索操作。举例来说,可以通过声音记录来查找对应的曲谱,或者利用曲谱来寻找相应的音轨。
  • 无实例音乐归类不需要标记的数据,根据词语的相近程度把音乐归类至具体的类型中(例如风格、情感等)。
  • 歌曲建议依据语义相近度提供歌曲建议,能够实现单一媒介类型中的推荐(例如声音至声音的推送)。

CLaMP 3的核心技术机制

  • 多种类型的数据同步整合把各种形式的音乐资料(例如曲谱、MIDI文件及音轨)与多种语言的文字整合进同一个共同理解的空间中。利用对比学习技术,该系统能够训练出将这些不同类型的资料转换为相近的数据表达方式的能力,从而支持跨媒体搜索功能。
  • 比较学习架构采用类似CLIP变种的对比学习方法来培训模型。该过程涉及利用正面示例组合(例如,匹配的音频与文字描述)及负面示例组合(任意搭配的数据集),以让模型学会识别语义上的关联性和非关联性,并改进其表示空间的质量。
  • 多种语言兼容性サポート利用XLM-R这一多语言预训练模型来生成多种语言的文本嵌入向量,能够对27种不同的语言进行培训,并且还能将这种能力扩展应用至大约100种其他语言上。
  • 利用海量数据集进行训练该模型通过在一个大型数据库上进行学习得以优化,这个数据库包含了超过231万个优质的音轨与文字匹配项(例如M4-RAG),涵盖了来自全球194个国家、使用27种不同语言的内容。
  • 特性抽取及表述由于提供的原文内容为空,没有具体的信息可以进行伪原创改写。如果您能提供具体的文本内容,我很乐意帮您完成这个任务。
    • 音乐记谱采用交错的ABC标记法。
    • 音乐仪器数字接口转化为MIDI文本格式(MTF)。
    • 声音文件抽取MERT属性。

CLaMP 3 的官方仓库链接

  • 官方网站访问此链接以查看相关内容:https://sanderwood.github.io/clamp3/
  • Git代码库:访问此链接以获取Sanderwood开发的clamp3项目 – https://github.com/sanderwood/clamp3
  • HuggingFace的模型集合:访问该链接可查看Sander Wood开发的 Clamp3 模型详情 – https://huggingface.co/sander-wood/clamp3
  • 关于技术的arXiv学术文章这篇论文的详细信息可以在网址 https://arxiv.org/pdf/2502.10362 上找到。
  • 网上试用演示版访问此链接以查看Sander Wood创建的CLAMP3项目:https://huggingface.co/spaces/sander-wood/clamp3

CLaMP 3的使用情境

  • 歌曲推介基于文本说明或音乐剪辑,提供意义相近的音乐建议,并实现个性化的推荐体验。
  • 音乐制作支持:利用文字创作出相应的乐曲,辅助创意人士激发灵感或是变换他们的音乐格调。
  • 音乐教学:查找相关的音频文件、曲谱及教程资料,提供多种语言的学习支持。
  • 音乐的归类及解析对音乐的风格和情感等进行无需训练样例的分类,并评估其语义上的相近程度。
  • 多元媒体制作:通过选取恰当的音乐来搭配视频或图片,从而提高内容创作的效率。
© 版权声明

相关文章