OpenAI发布新一代语音模型：语音表达更自然

AI资讯1年前 (2025)发布 ainav

213 0 0

3月21日讯，OpenAI于昨日（3月20日）发布官方博文中宣布，正式推出语音转文本（Speech-to-Text）和文本转语音（Text-to-Speech）模型。这一创新标志着人工智能语音技术的又一重要进展，旨在为开发者提供更多定制化选择，助力构建更精准、高效的语音交互系统，并进一步推动人工智能语音技术在商业领域的广泛应用。

在语音转文本领域，OpenAI此次推出了两款全新模型：gpt-4o-transcribe 和 gpt-4o-mini-transcribe。官方测试数据显示，这两款模型在单词错误率（WER）、语言识别准确性和整体性能方面均超越了现有的Whisper系列模型。这意味着开发者将能够获得更精确的语音转写服务。

这两款语音转文本模型支持超过100种语言，通过先进的强化学习技术和多样化的高质量音频数据集进行训练。得益于此，它们能够更精准地捕捉细微的语音特征，显著降低误识别率。尤其在面对嘈杂环境、不同口音及多变语速等复杂场景时，表现更加稳定和可靠。

在文本转语音技术方面，OpenAI此次推出的gpt-4o-mini-tts模型同样表现出色。开发者可以根据具体需求，通过指令控制语音风格，使其适用于多种应用场景。例如，在客服系统中提供更自然的交互体验，或者为创意内容制作个性化声音。

在费用方面，三款新模型均提供了清晰的定价结构：

gpt-4o-transcribe：每100万tokens输入费用为X美元，输出费用为Y美元，处理速度为Z tokens/分钟。
gpt-4o-mini-transcribe：以更具竞争力的价格提供服务，每100万tokens输入费用为A美元，输出费用为B美元，处理速度达到C tokens/分钟。
gpt-4o-mini-tts：作为功能全面的语音合成工具，其输入和输出费用分别为D美元和E美元每百万tokens，处理速率为F tokens/分钟。

注：以上价格仅供参考，请以OpenAI官方发布信息为准。

# AI资讯