复旦大学发布实时语音互动模型SpeechGPT 2.0预览版

AI工具3个月前发布 ainav
137 0

SpeechGPT 预览版2.0指的是什么?

复旦大学 OpenMOSS 团队发布了 SpeechGPT 2.0-preview,这是一个拟人化的实时互动系统。该系统经过百万小时中文音频数据的训练,并采用了端到端的设计框架,实现了语音与文本的高度集成融合。它具备接近自然对话的表现力和百毫秒级的快速响应时间,支持用户进行流畅、即时的交互打断操作。此外,SpeechGPT 2.0-preview 还能精准调节语速、情感表达风格以及音色,并能够智能地在不同模式间切换。此系统还拥有多种语音表现能力,比如诗歌朗读、故事叙述和方言表演等技能。

SpeechGPT 2.0-preview

SpeechGPT 预览版2.0的核心特性

  • 情绪及表述调控具备多种情绪表现力(例如疲倦或快乐)、多种声音特质(性别变换)和多样化语调风格(包括诗词吟诵与地方口音模拟),并能精细调控,擅长于人物形象塑造。
© 版权声明

相关文章