阶跃星辰重磅推出端到端语音大模型Step-Audio 2 mini，性能达业内领先水平

322 0 0

9月1日，阶跃星辰正式推出了开源端到端语音大模型Step-Audio 2 mini。这款模型在多个国际权威测试基准中均达到了最优性能水平，并已入驻阶跃星辰开放平台。

据官方资料显示，该模型实现了语音理解、音频推理与生成的统一化建模，同时具备原生级别的工具调用功能，最突出的特点是支持联网搜索等实用操作

在各项关键评测中，Step-Audio 2 mini均展现出卓越性能。其在音频理解、语音识别、翻译和对话交互等方面的表现尤为出色，不仅超越了Qwen-Omni和Kimi-Audio等开源端到端语音模型，更在多数任务上领先GPT-4o Audio。

在通用多模态音频理解测试集MMAU上，Step-Audio 2 mini以73.2的高分位居开源端到端语音模型榜首；
在评估口语对话能力的URO Bench基准中，该模型在基础和专业赛道均取得最佳成绩，充分展现了其优秀的对话理解和表达能力；
在机器翻译任务方面，Step-Audio 2 mini表现尤为突出。它在CoVoST 2和CVSS评测集中的得分分别为39.3和29.1，远超GPT-4o Audio等其他语音模型；
在语音识别领域，Step-Audio 2 mini同样表现出色。其多语言和多方言识别均位列第一，其中中文测试集平均CER为3.19，英语测试集WER为3.50，领先其他开源模型达15%以上。

传统AI语音系统常被诟病为”低智商、low情商”。一方面，其知识储备和推理能力有限；另一方面，难以理解语境信息和情感表达。Step-Audio 2 mini通过创新性的架构设计，成功解决了这些行业难题。

端到端多模态架构：该模型突破了传统ASR+LLM+TTS的三级结构限制，实现了从原始音频输入到语音输出的直接转换。这种设计不仅简化了流程，降低了时延，还能更好地理解副语言信息和非人声信号。

▲ Step-Audio 2 mini 模型架构图

CoT推理结合强化学习：Step-Audio 2 mini在端到端语音模型中首次引入链式思维推理（Chain-of-Thought，CoT）和强化学习的联合优化方案。这种创新使得模型能够更精准地理解和回应包含情绪、语调、音乐等复杂元素的信息。
音频知识增强：通过支持包括网络搜索在内的外部工具，有效解决了传统语音模型的幻觉问题，并赋予其更强的多场景适应能力。

GitHub：https://github.com/stepfun-ai/Step-Audio2

Hugging Face：https://huggingface.co/stepfun-ai/Step-Audio-2-mini

ModelScope：https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini