FLM-Audio:智源研究院开源的全双工音频对话模型

AI工具2个月前发布 ainav
38 0

FLM-Audio是什么

FLM-Audio是由北京智源人工智能研究院携手Spin Matrix以及新加坡南洋理工大学共同开发的一款革命性的全双工音频对话模型。该模型专注于中文和英文两种语言的处理,采用创新性的原生全双工架构,在每个时间步长内同时整合听觉、说话和独白通道,成功规避了传统时分复用方案带来的高延迟问题。

FLM-Audio的独特之处在于其采用了自然独白与双重训练相结合的方法论,使模型在对话过程中更加贴近人类的自然交流模式。这种设计有效解决了异步对齐的技术难题,显著提升了对话的流畅性和真实性。值得注意的是,尽管FLM-Audio仅使用了100万小时的数据量进行训练,但其生成的回复质量依然保持了高标准,同时展现出快速响应和高度自然的交互特点。

此外,FLM-Audio在噪声处理和用户打断方面表现出了卓越的鲁棒性。这意味着即使在复杂的声学环境中或对话过程中出现意外中断,模型仍能稳定运行并准确理解上下文,确保对话体验始终流畅无阻。

FLM-Audio:智源研究院开源的全双工音频对话模型

FLM-Audio的主要功能

  • 全双工语音交互:实现真正的“边听边说”能力,用户可以在任何时候打断对话,模型能够立即暂停输出并快速理解新问题,随后提供自然流畅的回应,显著降低了延迟。
© 版权声明

相关文章