来自浙大的开源项目 GTSinger —— 一个大规模、多语种且音质上乘的歌唱声音数据库

AI工具3个月前发布 ainav
92 0

GTSinger指的是什么?

GTSinger是一个由浙江大学的研究团队开发的大规模高质量开源歌唱声音数据库,其设计目的在于促进多样化的歌唱研究工作。该数据库收录了20位专业歌手在专业录音室录制的80.59小时的演唱音频,这些演唱涉及九种语言:汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语,从而提供了广泛的音色与风格变化。GTSinger强调歌唱技巧的表现及模型构建,并为六类常见的歌唱技法配备了对比样本和音素级别的标注信息。此外,它还包含真实的乐谱数据,有利于音乐创作的实际应用。数据库内含有人工进行的音素对齐结果、整体风格标签以及对应的朗读音频片段,使其能够适应多种类型的歌声研究任务。

GTSinger

GTSinger的核心特性

  • 包含多种语言的歌唱声音资料集合GTSinger汇集了九种不同的语言歌唱声音,提供了丰富的音色与风格选择,并且能够实现跨越多种语言的声音合成及分析功能。
  • 掌握唱歌技能的调控方法该数据集包含了六种普遍使用的演唱技法的对比样本及音素级别的标记,使研究人员能够更精准地对歌曲中的技艺进行建模与调控。
  • 提供真实的音乐谱子支持为歌声搭配真实的乐谱,并将其融入到歌声合成技术中,对于实际的音乐创作工作具有很大的辅助作用。
  • 适应多种任务需求GTSinger平台能够处理多重与歌声相关的作业,涵盖声音生成、技能辨识、样式变换及将语音转化为歌曲等功能。
  • 性能评测:开展性能测评,分析数据集在多种歌唱相关任务中的效果及实用性。

GTSinger的核心技术机制

  • 高品质声音记录GTSinger 数据集通过在专业的录音室捕捉职业歌手的演唱来建立,从而保证了音频质量的高度水准。
  • 语音同步与标记利用音乐信息检索技术,例如MFA与Praat软件,执行音素同步及标记工作,以达成在音素层面上的高度精准调控。
  • 演唱技艺标记利用专业听力评估及音频解析方法,标记歌曲中涉及的演唱技艺细节,以辅助算法的学习与调控。
  • 音乐记谱创建通过融合音频信号处理技术与音乐理论,我们能够从歌唱声中捕获音调数据,并将其转化为MIDI格式的曲谱。随后,这些初步转化的结果将经过专业人士的手工校正以生成准确的正式乐谱。
  • 构建与验证数据集通过人工核查及进一步加工,保证数据集的品质与实用性,涵盖对音频片段进行语义划分以及静音部分的管理。

GTSinger的项目位置

  • 官方网站 проекта

    注:这里的翻译和改写是基于理解“项目官网”通常含义的基础上进行的,并将其以一种不同的语言(俄语)进行了表达。如果需要的是中文内的伪原创,可以这样表示:“官方平台”。不过,请注意直接翻译成其他语言也是一种有效的变体方式,特别是在国际化或跨文化内容创建中。https://gtsinger.github.io/ 页面提供了相关内容。

  • Git代码库:在GitHub上的GTSinger仓库地址为https://github.com/GTSinger/GTSinger
  • HuggingFace的模型集合访问此链接以获取GTSinger数据集:https://huggingface.co/datasets/GTSinger/GTSinger
  • 关于arXiv的技术文章在该链接中提供了关于最新研究成果的详细PDF文档,具体内容可通过访问此页面获取:https://arxiv.org/pdf/2409.13832。

GTSinger的使用场合

  • 声乐合成利用数据集中包含的歌声示例和技术标记,构建一个能够生成具备独特技术和风格的高品质歌唱声音的系统。
  • 歌唱技艺辨识对歌声里的音素级别技艺标签进行解析,以培训模型实现对各种歌唱技艺的辨识与归类。
  • 歌唱风格转换把一种音乐风格的声音转变为另一种类别,比如让一首流行的歌听起来具有古典韵味。
  • 从语音转变为歌曲的声音(Speech-to-Melody, STM):该技术能够把普通的说话声音转变为具有乐感的歌唱声,广泛应用于音频合成及音乐创意领域。
  • 音乐教学利用包含实际乐谱与歌声示例的数据集来创建音乐教育软件,以辅助学员掌握并提升歌唱技能。
© 版权声明

相关文章