清华研发的轻量型语音分割模型 TIGER

AI工具4周前发布 ainav
43 0

TIGER代表的是什么?

TIGER(时间-频率交织增益抽取与重构网络)是由清华大学的研究小组开发的一款轻量级语音分离系统,它采用了时频交错建模策略,并结合频率分割及多尺度注意力机制,显著改善了语音的分离效果并减少了参数和计算需求。该模型的关键在于其创新的时间-频率交错建模组件(FFI),此组件能够有效地整合时间与频率信息,从而更精准地提取语音特征。此外,TIGER还通过引入多尺度选择性注意模块(MSA)以及全频带/帧注意力单元(F³A),进一步提升了模型的特征抽取效能。

TIGER

TIGER的核心特性

  • 高效的音频分割技术TIGER利用创新型的频率时间交互模型组件(FFI)与多层次注意力机制,能够有效地从混音音频中区分不同的发言者。
  • 较少的计算需求和较小的模型规模经过压缩,减少了94.3%的参数和95.3%的计算资源后,该模型的表现依然能够媲美现今最顶尖的技术。
  • 在多样化的音频场景中实现适应性调整TIGER利用EchoSet数据集来仿真实际环境中出现的噪音与回声效应,从而增强其在各种复杂条件下工作的稳定性。

TIGER的核心技术机制

  • 频率与时间交互的建模方法TIGER 的关键组成部分是其时频交互建模单元(FFI),该单元通过交替地分析时间与频率数据,实现了对时频特征的有效集成。这一结构由频率通道和帧通道构成,每个通道都配备了多尺度选择性注意力机制(MSA)及全频/帧关注组件(F³A),这些设计有助于结合局部细节与整体视角的信息,从而优化语音分离的性能。
  • 频率分割语音信号的能量在各个频率区间上分布不均衡,尤其是在中低频区域承载了较多的信息内容,而高频部分则主要包含了噪音和细微的变化。TIGER 采用了一种频率分割的方法,将整个频谱细分为多个宽度各异的子段,这样不仅降低了计算负担,并且能使模型更加集中于处理那些关键性的频率区间。
  • 跨层次关注策略TIGER 集成了一个多尺度选择性关注组件(MSA),利用多层次的卷积技术和有选择性的关注策略,综合处理局部与整体的信息,提升了其捕捉多种规模特征的能力。
  • 整个过程TIGER 的完整过程涵盖五个环节:
    • 编译器利用短时傅里叶变换(STFT)把混音音频信号转化为时间频率的表现形式。
    • 频率分割组件把完整的频率范围分割成若干个亚频段,然后利用一维卷积技术将每一个亚频段转换至相同的特性尺寸。
    • 分理器该结构包含若干个时频交互模型单元(FFI),旨在捕捉每位发言人的音频特性。
    • 频率段还原组件把子带还原至整个频率区间。
    • 解析器利用逆短时傅里叶变换(iSTFT)来创建每位讲话人的清楚语音信号。

TIGER项目的网址

  • 官方网站PROJECT:访问此链接以获取相关信息 -> https://cslikai.cn/TIGER/<br>
    (注:由于原文仅为一个网址,内容有限,伪原创主要通过增加引导语句的形式展现。)
  • GitHub代码库:在GitHub上可以找到JusperLee开发的TIGER项目,网址为https://github.com/JusperLee/TIGER。
  • 关于arXiv上的科技学术文章在学术预印平台ArXiv上发布了一篇新的研究论文,其在线地址为:https://arxiv.org/pdf/2410.01469。该文档包含了研究人员最新的探索成果。

TIGER的使用情境

  • 会议与发言纪要在包含多位讲话者的会议或演讲场合,TIGER 能够有效地将各个发言人的声音分开,从而提高会议纪要的速度与精确度。
  • 视频编辑及创作于视频创作领域内,TIGER 可精准区分主播声音与背景音乐或其它人声,极大便利了后续编辑及剪辑工作。
  • 影片声音编辑在处理电影音频分割的任务时,TIGER展现了卓越的能力,能够清晰地分辨并提取出对话、配乐及声音效果,从而增强了音频编辑的多样性和整体品质。
  • 智能化声音辅助工具在运用智能语音助手时,TIGER 能够区分用户的讲话与环境噪音,从而增强语音交流的质量。
© 版权声明

相关文章