Step-Audio-EditX是什么
Step-Audio-EditX是由阶跃星辰开源的一款全球领先的LLM级音频编辑大模型,它以”情感、语调、副语言”三维度的精细控制为特色。该模型能够精准调节愤怒、快乐、悲伤等情绪的强度,并支持在音频中叠加多种说话风格(如撒娇声、耳语音、老人腔)以及插入10种自然副语言声音(如呼吸声、笑声、叹气声)。更值得一提的是,它无需目标语音即可实现音色克隆,用户只需在文本前添加方言标签(例如[四川话]、[粤语]),就能快速切换不同方言。整个模型基于大规模合成数据进行了SFT+PPO优化训练,在后训练阶段无需额外编码器或适配器即可实现属性解耦与精细控制。
Step-Audio-EditX的主要功能
- 情感编辑:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情绪标签,用户可以多次迭代调节每种情绪的强度。
- 风格叠加:不仅能够模拟撒娇、耳语等特定说话方式,还能将不同风格的声音进行多层次叠加处理。
- 副语言插入:支持在文本中插入呼吸声、笑声、叹气声等多种自然声音,丰富音频表达层次。
- 零样本TTS:无需提供目标人语音即可实现音色克隆,方言切换通过添加标签(如[四川话]、[粤语])快速完成。
- 属性解耦控制:基于大间隔合成数据优化训练,在后训练阶段无需额外编码器或适配器就能实现精准的属性解耦与迭代控制。
Step-Audio-EditX的优势特点
作为全球首个具备LLM级别的音频编辑能力的大模型,Step-Audio-EditX在以下几个方面具有显著优势:
- 高度可定制化:支持对情绪强度进行多级调节,满足不同场景下的个性化需求。
- 灵活的声音叠加:能够将多种说话风格自然融合,创造独特的音频效果。
- 丰富的副语言支持:内置10类自然声音元素,提升音频表现力和真实感。
- 高效的音色克隆:通过零样本TTS技术实现快速方言切换,极大简化操作流程。
- 先进的训练架构:采用SFT+PPO优化策略,在后训练阶段无需额外组件即可实现属性解耦与精准控制,显著提升了模型的泛化能力和编辑效果。
总结
Step-Audio-EditX凭借其在情感控制、风格叠加、副语言插入等方面的强大功能和技术创新,正在重新定义音频编辑领域的可能性。这一开创性的技术突破,为语音合成与音频编辑带来了前所未有的创作自由度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。