OpenAI发布新一代语音模型:语音表达更自然

AI资讯2周前发布 ainav
24 0

3月21日讯,OpenAI于昨日(3月20日)发布官方博文中宣布,正式推出语音转文本(Speech-to-Text)和文本转语音(Text-to-Speech)模型。这一创新标志着人工智能语音技术的又一重要进展,旨在为开发者提供更多定制化选择,助力构建更精准、高效的语音交互系统,并进一步推动人工智能语音技术在商业领域的广泛应用。

OpenAI发布新一代语音模型:语音表达更自然

在语音转文本领域,OpenAI此次推出了两款全新模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe。官方测试数据显示,这两款模型在单词错误率(WER)、语言识别准确性和整体性能方面均超越了现有的Whisper系列模型。这意味着开发者将能够获得更精确的语音转写服务。

OpenAI发布新一代语音模型:语音表达更自然

这两款语音转文本模型支持超过100种语言,通过先进的强化学习技术和多样化的高质量音频数据集进行训练。得益于此,它们能够更精准地捕捉细微的语音特征,显著降低误识别率。尤其在面对嘈杂环境、不同口音及多变语速等复杂场景时,表现更加稳定和可靠。

在文本转语音技术方面,OpenAI此次推出的gpt-4o-mini-tts模型同样表现出色。开发者可以根据具体需求,通过指令控制语音风格,使其适用于多种应用场景。例如,在客服系统中提供更自然的交互体验,或者为创意内容制作个性化声音。

OpenAI发布新一代语音模型:语音表达更自然

在费用方面,三款新模型均提供了清晰的定价结构:

  • gpt-4o-transcribe:每100万tokens输入费用为X美元,输出费用为Y美元,处理速度为Z tokens/分钟。
  • gpt-4o-mini-transcribe:以更具竞争力的价格提供服务,每100万tokens输入费用为A美元,输出费用为B美元,处理速度达到C tokens/分钟。
  • gpt-4o-mini-tts:作为功能全面的语音合成工具,其输入和输出费用分别为D美元和E美元每百万tokens,处理速率为F tokens/分钟。

注:以上价格仅供参考,请以OpenAI官方发布信息为准。

© 版权声明

相关文章