Chroma 1.0:开源实时端到端语音对话模型

AI工具3个月前发布 ainav
78 0

什么是Chroma 1.0

Chroma 1.0是由FlashLabs开发的第一个开源实时端到端语音对话系统。该模型结合了超低延迟交互、高度个性化的语音复制能力和强大的对话性能。通过将语音理解和生成过程紧密集成,采用独特的1:2文本-音频token映射策略,Chroma实现了亚秒级的响应速度。

仅需几秒钟的参考录音,Chroma就能精准捕捉并还原说话人的声音特征,在音色相似度方面超出人类基准测试10.96%。作为一款轻量级模型(4B参数),它在对话推理和口语化交互中表现卓越,完美平衡了计算效率与性能水平。

Chroma 1.0的核心功能

  • 实时语音交互: 支持超低延迟的语音对话体验,端到端延迟控制在1秒以内,特别适合需要即时反馈的互动场景。
  • 个性化语音克隆: 通过少量参考音频即可实现高度自然的声音复现,音色相似度显著优于传统方法(提升10.96%)。
  • 对话能力: 集成了先进的理解与生成机制,能够进行连贯且智能的多轮对话。

![FlashLabs Chroma 1.0](https://ai-bot.cn/wp-content/uploads/2026/01/FlashLabs-Chroma-1.0-website.png)

© 版权声明

相关文章