EzAudio是一款由约翰霍普金斯大学与腾讯AI实验室联合开发的文本转语音(Text-to-Audio, T2A)生成工具。它采用了一种高效的扩散变换器技术来从文本指令中创造出高品质的声音效果。该模型通过优化其架构和实施高效的数据训练策略,在音频的真实性、生成的速度及效率方面设立了新的标杆。EzAudio还采用了无分类器引导的重缩放方法,使得在简化使用过程的同时保持了声音的质量。