FLM-Audio：智源研究院开源的全双工音频对话模型

AI工具10个月前发布 ainav

139 0 0

FLM-Audio是什么

FLM-Audio是由北京智源人工智能研究院携手Spin Matrix以及新加坡南洋理工大学共同开发的一款革命性的全双工音频对话模型。该模型专注于中文和英文两种语言的处理，采用创新性的原生全双工架构，在每个时间步长内同时整合听觉、说话和独白通道，成功规避了传统时分复用方案带来的高延迟问题。

FLM-Audio的独特之处在于其采用了自然独白与双重训练相结合的方法论，使模型在对话过程中更加贴近人类的自然交流模式。这种设计有效解决了异步对齐的技术难题，显著提升了对话的流畅性和真实性。值得注意的是，尽管FLM-Audio仅使用了100万小时的数据量进行训练，但其生成的回复质量依然保持了高标准，同时展现出快速响应和高度自然的交互特点。

此外，FLM-Audio在噪声处理和用户打断方面表现出了卓越的鲁棒性。这意味着即使在复杂的声学环境中或对话过程中出现意外中断，模型仍能稳定运行并准确理解上下文，确保对话体验始终流畅无阻。

FLM-Audio：智源研究院开源的全双工音频对话模型

FLM-Audio的主要功能

全双工语音交互：实现真正的“边听边说”能力，用户可以在任何时候打断对话，模型能够立即暂停输出并快速理解新问题，随后提供自然流畅的回应，显著降低了延迟。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

可灵O1：全球首个智能多模态视频生成模型

ainav

295 0

AI个性化学习：智能定制课程

ainav

240 0

学者·万维InternVL 2.5 —— 上海人工智能实验室发布的多功能大型语言模型系列

ainav

476 0

多方言TTS框架DiaMoE-TTS：清华与巨人网络联合开源

ainav

276 0

LongCat-Flash-Lite：美团开源的大语言模型

ainav

149 0

长寿命VITA —— 腾讯优图携手南京大学及厦门大学开放的多媒体模型

ainav

505 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2