阿里通义发布多模态语音辨识开放项目 – 3D-Speaker

AI工具2年前 (2025)发布 ainav

333 0 0

什么是3D-Speaker？

通义实验室的语音团队近期发布了一个名为3D-Speaker的开源项目，该项目融合了声学、语义与视觉信息，旨在实现精确的人物辨识及语言类型判别。3D-Speaker包含了工业标准级别的模型以及相关的训练和推理程序代码，并配备了涵盖广泛设备种类、多种距离范围和方言的大规模数据集，为复杂的语音研究提供了强有力的支持。项目最新的升级改进了多说话人的日志记录功能，进一步增强了识别的效率与准确度，特别适用于处理大规模对话数据时提升效能。

3D-Speaker的核心特性

演讲者记录把音频分割成归属于各个讲话者的若干部分，并确定每位讲话者发言的起止时刻。
语音辨识者身份确认识别音频里发言者的身份。
语言检测辨别音频片段中演讲者采用的语言。
多种感知技术融合识别通过融合声音特性、含义解析和图像数据来提升辨识精度，特别是在嘈杂的音频场景中表现更为突出。
多重讲话者识别能够检测并区分音频中多个人声同时出现的部分。

3D-Speake的核心技术机制

音频数据处理音频编码器用于捕获含有讲话者身份信息的声音特性。通过使用诸如WavAugment和SpecAugment之类的数据增广技术，可以增强这些特性的稳健性提取效果。
视像数据整合通过对人物面部动作的解析与特性抽取，并利用融合了视觉与声音的多重感知技术模块，准确辨识出现在帧中的讲话者详情。
整合意义数据通过融入语义理解，我们将讲话者的记录工作转变为依据解析出的文字内容来辨识不同的发言者。采用搭载Bert架构的对话分析与讲话者切换预估组件，以捕捉文本中蕴含的讲话者特征。
全程语音记录者日志（End-to-End Enrollment and Diarization, EED）利用EEND架构直接生成各发言者的语音活跃度分析结论，并辨识任何发言人重合区间。
非监督分类技术采用融合传统“特征抽取与无监督分类”的方法进行全面的人数识别，生成大致的讲话者身份区间结果。