阶跃星辰重磅推出端到端语音大模型Step-Audio 2 mini,性能达业内领先水平

AI资讯1周前发布 ainav
25 0

9月1日,阶跃星辰正式推出了开源端到端语音大模型Step-Audio 2 mini。这款模型在多个国际权威测试基准中均达到了最优性能水平,并已入驻阶跃星辰开放平台。

据官方资料显示,该模型实现了语音理解、音频推理与生成的统一化建模,同时具备原生级别的工具调用功能,最突出的特点是支持联网搜索等实用操作

在各项关键评测中,Step-Audio 2 mini均展现出卓越性能。其在音频理解、语音识别、翻译和对话交互等方面的表现尤为出色,不仅超越了Qwen-Omni和Kimi-Audio等开源端到端语音模型,更在多数任务上领先GPT-4o Audio。

阶跃星辰重磅推出端到端语音大模型Step-Audio 2 mini,性能达业内领先水平

  • 在通用多模态音频理解测试集MMAU上,Step-Audio 2 mini以73.2的高分位居开源端到端语音模型榜首;

  • 在评估口语对话能力的URO Bench基准中,该模型在基础和专业赛道均取得最佳成绩,充分展现了其优秀的对话理解和表达能力;

  • 在机器翻译任务方面,Step-Audio 2 mini表现尤为突出。它在CoVoST 2和CVSS评测集中的得分分别为39.3和29.1,远超GPT-4o Audio等其他语音模型;

  • 在语音识别领域,Step-Audio 2 mini同样表现出色。其多语言和多方言识别均位列第一,其中中文测试集平均CER为3.19,英语测试集WER为3.50,领先其他开源模型达15%以上。

阶跃星辰重磅推出端到端语音大模型Step-Audio 2 mini,性能达业内领先水平

传统AI语音系统常被诟病为”低智商、low情商”。一方面,其知识储备和推理能力有限;另一方面,难以理解语境信息和情感表达。Step-Audio 2 mini通过创新性的架构设计,成功解决了这些行业难题。

  • 端到端多模态架构:该模型突破了传统ASR+LLM+TTS的三级结构限制,实现了从原始音频输入到语音输出的直接转换。这种设计不仅简化了流程,降低了时延,还能更好地理解副语言信息和非人声信号。

阶跃星辰重磅推出端到端语音大模型Step-Audio 2 mini,性能达业内领先水平

▲ Step-Audio 2 mini 模型架构图
  • CoT推理结合强化学习:Step-Audio 2 mini在端到端语音模型中首次引入链式思维推理(Chain-of-Thought,CoT)和强化学习的联合优化方案。这种创新使得模型能够更精准地理解和回应包含情绪、语调、音乐等复杂元素的信息。

  • 音频知识增强:通过支持包括网络搜索在内的外部工具,有效解决了传统语音模型的幻觉问题,并赋予其更强的多场景适应能力。

GitHub:https://github.com/stepfun-ai/Step-Audio2

Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini

ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

© 版权声明

相关文章