中科院携手多家学术单位发布提升多元媒体音乐创作能力的架构——VMB

AI工具2个月前发布 ainav
58 0

VMB代表的是什么?

VMB(Visuals Music Bridge)是由中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室及上海交通大学等机构联合开发的一种多模态音乐生成系统。该框架能够依据文本、图像以及视频等多种输入模式来创造音乐作品。为了应对数据稀缺性问题,改善跨模态对齐的弱点,并提高可控性,VMB设计了文本桥接与音乐桥接两个机制。其中,文本桥接负责将视觉信息转化为详尽的音频描述;而音乐桥接则通过广泛的检索策略结合特定目标搜索来增强用户控制力。这两者相辅相成,在显式条件下的音乐生成过程中协同工作,从而显著提高了音质、模态对齐及定制化能力,并在效果上超越了传统技术手段。

VMB

VMB的核心作用

  • 多功能音乐阐述系统(Multi-functional Music Elucidation System)把视觉素材(例如图片与影片)转化为详尽的文字说明,并以此作为创作音乐的文本链接。
  • 双重路径音乐搜索(Double-path Music Search)通过综合运用广泛的搜索技术和特定的查询方法来实现音乐衔接,并允许用户通过编辑文字说明或是选择示例曲目来调整最终产生的乐曲。
  • 基于明确条件的音乐创作(Music Creation Based on Explicit Conditions)通过结合文本过渡与音乐过渡来创造乐曲,并将这两种明确的过渡方法融入至一种从文本转换为音乐的扩散型变压器之中。
  • 提升模式协同效应优化输入模式与产生的音乐间的同步性,使音乐更加契合所输入的视觉及情绪元素。
  • 增强可管理性用户可以通过提供文本说明或是音乐示例来引导音乐创作流程,从而达到更加精准的操控效果。

VMB的工作机制

  • 文本衔接借助于多模态音乐描绘系统(MMDM),该系统依托于InternVL2框架开发而成,能够把视觉信息转化为详尽的音乐叙述文本,并以此充当连接音乐创作与文字表达之间的桥梁。
  • 旋律连接心灵之间的桥梁依托于双重路径的音乐搜索框架,系统在一方执行全面的情感与主题内容同步匹配分析;另一方则聚焦于详细探究特定音轨特性,包括节拍、演奏工具及风格类别。
  • 明确条件下的音乐创作通过融合文本过渡与音乐过渡的技术手段,并利用扩散变换器(DiT)实现从文字叙述到音频内容的转化。该系统借助Music ControlFormer来综合并细化广泛的搜索调控,同时运用风格化模块对特定搜索所得的全局状况进行处理。
  • 搜索加强创作(SAC)于音乐创作领域内首度运用RAG技术,通过融合动态的音乐信息来弥合不同模式间的鸿沟,从而优化多模态内容的生产质量,并增强其可调控性。
  • 整合控制指令在创建过程中,通过逐元素相加的方法融合主路径与ControlFormer路径的内部状态,以保证从初期就开始实现结构与意义的一致性。
  • 样式化组件结合检索获得的音乐及其文字说明,并通过交叉注意力机制把这些信息融入含有噪音的乐曲中。此过程集中于捕捉音乐及文本资料里的风格特征,以增强所创造音乐与预设特性的一致性。

VMB项目的仓库位置

  • Git存储库:访问此链接以获取更多信息 – https://github.com/wbs2788/VMB
  • arXiv科技文章访问该链接可以获得最新的学术论文:https://arxiv.org/pdf/2412.09428,其中包含了详尽的研究内容。

VMB的使用场合

  • 影视作品创作与制作为影片、剧集、商业短片及纪实节目自动创作配乐,以强化视觉叙事的情绪传达与环境渲染。
  • 制作电子游戏在游戏过程中,依据不同的场景动态创建背景音乐,以增强玩家的沉浸感受及整体的游戏享受。
  • 虚拟实境(VR)与扩增实境(AR)针对虚拟场景及增强现实的音频内容进行了优化调整,确保音效能够与用户所见画面协调一致,进而提升交互感受。
  • 社交平台上的内容制作为用户提供基于其创作视频题材(例如旅游见闻、日常生活分享等)的定制化背景音乐服务,以增强作品的表现力和吸引力。
  • 音乐教学与创意支持支持音乐创作者及热爱音乐的朋友们开发新的乐章,给予创意启发与制作资源,在尝试多样化的音乐类型与构造方面尤为有用。
© 版权声明

相关文章