阶跃星辰开放的语音互动模型 – Step-Audio

AI工具1年前 (2025)发布 ainav

386 0 0

Step-Audio指的是什么

阶跃星辰团队发布的首个产品级开源语音互动模型名为Step-Audio，它能够根据具体的应用情境生成涵盖情绪、方言、语言种类以及歌唱风格等多种个性化的表达形式，并且能与用户进行高质量及自然流畅的对话交互。该模型依托于一个拥有130B参数的统一架构，融合了语音理解与合成技术，提供包括语音识别、对话管理及声音合成在内的多种功能支持。Step-Audio的主要亮点在于其高效的语音数据生成能力、对多情感和方言的精准控制力以及增强的角色扮演与工具调用特性，在处理复杂任务时表现出色。性能测试结果显示，Step-Audio在指令执行精确度和应对复杂的语音交互挑战方面均领先于同类产品。

Step-Audio的核心特性

整合语音的理解和创造功能该系统集成语音识别(ASR)、语义解析、对话创建及语音合成(TTS)功能，以完成从输入到输出的全程语音交流处理。
多种语言及地方方言的兼容性支持提供包括粤语、四川话在内的多种语言与方言的支持，以适应各地用户的特定需求。
情绪与样式调控能够创建蕴含特定情绪（例如生气、快乐、哀伤）及独特风格（比如饶舌、歌唱）的声音输出。
工具运用及角色模拟提供即时工具接入功能（例如天气查询与资讯获取），并具备角色模拟能力，从而增强互动的多样性和智能程度。
高精度声音生成技术依托于开放源代码的 Step-Audio-TTS-3B 模型，该服务能够产生自然而顺畅的声音效果，并且具备复制声音特质及创建个性语音的功能。

Step-Audio的核心技术机制

双重词汇库语音分割器采用语言编码集（频率为16.7赫兹，包含1024个代码）与意义编码集（频率为25赫兹，包含4096个代码）对声音数据进行切分。通过以2:3的时间交错模式融合语音特性，增强其语义理解和声学表达的能力。
包含130B个参数的多功能大型模型利用Step-1预训练的语言模型，并经过音频环境下的连续预处理及进一步调优，提升了该模型在理解和创造言语内容方面的效能。它能够促进声音与文字间的相互转换，整合了语音转录、交流协调和声音生成的功能于一体。
多音色语音生成器通过融合流匹配与神经声码器的技术手段，实现了对实时音频波形生成效果的显著提升。此方法确保了语音输出不仅具备高音质，还能够忠实再现说话者的情绪及语调特色。
即时推断及快速响应互动通过预测性的回应生产方法，在用户停顿时预先构建潜在的回答来缩短互动延时。利用语音活跃度监测技术和连续音频分割工具，即时分析传入的声音信号，增强交流的顺畅程度。
增强学习及命令执行指导通过采用包含人类反馈要素的强化学习方法（RLHF），来增强模型的语言交流技巧，以使产生的回应更加贴近人的意图及语言逻辑结构。利用带有指示性标记的数据集以及多层次互动会话进行培训，进一步提高其应对各种棘手情况的能力。

Step-Audio项目的仓库位置

Git存储库：在GitHub上可以找到由stepfun-ai维护的Step-Audio项目页面。
HuggingFace的模型集合库访问此链接以查看由StepFun AI整理的音频集合：https://huggingface.co/collections/stepfun-ai/step-audio
学术文章访问此链接以查看相关内容：https://github.com/stepfun-ai/Step-Audio/tree/main/resources/Step-Audio