阿里通义实验室推出Fun AudioGen VD语音合成模型

200 0 0

Fun-AudioGen-VD是什么

Fun-AudioGen-VD是由阿里巴巴达摩院语音实验室独立研发的前沿语音生成模型，专注于为声音设计和场景化音频创作提供专业级解决方案。该模型采用创新的架构设计，能够根据文本描述直接生成包含复杂音色特征、情绪表达以及完整听觉场景的高质量语音片段，开创了”人物+场景”一体化声音创作的新模式。

在核心功能方面，Fun-AudioGen-VD实现了对语音特征的精细调节。其强大的音色控制系统不仅可以准确设定性别、年龄、方言等基础属性，还能精确控制音高、语速、音强等声学参数。同时，模型支持丰富的音质特征描述，包括声音的清澈度、磁性感、沙哑度等多种特色音效。在情绪表达维度，系统能够模拟愤怒、悲伤、坚定等多种情感状态，并且可以精细刻画”内心戏”，例如”表面镇定但内心紧张”等复杂心理状态。

Fun-AudioGen-VD的场景构建能力同样令人瞩目。它支持叠加城市广场、战场环境等多种现实场景的环境音效，能够模拟教堂空间、水下环境等特殊场所的声学特征，并且可以真实还原老式收音机、对讲机等设备的听感特征。系统还实现了动态环境互动效果，比如风噪变化、回声延迟等复杂音频现象的拟真生成。