Multilingual Speech Model by AssemblyAI – Universal-1

AI工具3个月前发布 ainav
93 0

什么是Universal-1?

AssemblyAI是一家专注于AI语音技术的新创公司,其研发的多语言语音识别与转录系统名为Universal-1。该系统基于超过1250万小时涵盖多种语言的音频资料训练而成,并且能够支持包括英语、西班牙语、法语和德语在内的多个主要语言。无论是在嘈杂环境还是面对各种口音及自然对话场景下,Universal-1均能提供精确的文字转换服务,同时还具有快速响应能力和更高的时间戳准确性。这款模型特别强调提升语音识别的精度,以适应用户对于语音数据细致差异的要求,是一款非常适合开发未来AI产品和服务的强大工具。

Universal-1

Universal-1的核心特性

  • 多种语言兼容性支持Universal-1支持并优化了如英语、西班牙语、法语及德语等多种语言的处理能力,从而增强了其在这些语言上的语音识别精确度。
  • 高度精确面对多种情境因素,包括环境噪声、多样的发音习惯、日常交流的特点及语言演变等,Universal-1均能维持高水平的语音转文字精确度。
  • 降低幻想发生频率相较于Whisper Large-v3,Universal-1把语音信息的虚假生成比例下降了30%,这意味着该模型大幅减少了无音频输入时误产文字的现象。
  • 迅速回应Universal-1具备出色的并行推理功能,可迅速解析长时间音频资料,并保证及时反馈。其批量处理效率比Whisper Large-v3提升了五倍之多。
  • 准确的时间点估算该模型具备生成细致至单字时间点标记的能力,这对处理音频与视频剪辑及会议纪要等工作极为关键。相比Whisper Large-v3,Universal-1在时间标记的精确度上提升了26%。
  • 用户的个人喜好在对用户的偏好进行评估时发现,有71%的情况用户更加偏爱选用Universal-1的结果,这说明该选项在真实应用场景下能够更好地契合用户的需要。

关于Universal-1的表现分析

  • 英文口语转化为文本的精确度需要提供具体的内容来进行伪原创改写,请给出相关内容。Universal-1在参与对比的11个数据集中,有5个数据集达到了最低的词错误率(WER),超越了包括OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2以及Amazon和Google最新款在内的多个模型。
    Universal-1 English WER
  • 转换非英文语音为文本的精确度由于提供的内容仅有冒号,并没有具体的信息或句子,因此无法完成伪原创的改写。如果您能提供具体的文本内容,我很乐意帮您进行相应的处理。请给出需要修改的文字信息吧!于对西班牙语、法语及德语进行评估时,Universal-1在总共15个数据集中有5个的数据表现出了较低的WER值,这证明了该系统在这几种语言中具有较强的竞争优势。
    Universal-1 WER by Language
  • 时刻标记的精确性需要提供具体的内容来进行伪原创改写,请给出相应的文本。相较于Whisper Large-v3,Universal-1提升了预测时间戳的精确度,在100毫秒窗口内正确识别单词的比例增加了25.5%,由原来的67.2%提高到了84.3%。
    Universal-1时间戳准确性
  • 推断效能由于提供的内容为空,没有具体文本可供改写。如果您能提供具体的段落或句子,我很乐意帮您完成这项任务。请给出需要处理的文字内容吧!于NVIDIA Tesla T4设备之上,Universal-1相较于更迅速的Whisper框架,在未启用并行处理时提速达三倍之多;而在采用64路并行推断技术后,该模型只需21秒便能完成对一小时录音内容的转写工作。
  • 降低幻想出现的频率请提供需要伪原创改写的具体内容。由于您当前的消息仅有冒号,并没有给出具体文本,因此无法完成您的请求。如果您能提供具体的文字内容,我将乐意帮您进行伪原创的改写工作。相比Whisper Large-v3,Universal-1在音频转录过程中的幻觉率减少了30%。
  • 人们偏好的检测由于提供的内容为空,没有具体内容可以进行伪原创改写。如果有具体文本需要帮助,请提供详细信息。于人类偏好的评测里,评审员有60%的时间更钟爱Universal-1的结果展示,相比之下,Conformer-2仅获得了24%的认可率。
    Universal-1人类偏好
  • 语音划分分类由于提供的内容仅有冒号,并没有实际的文字信息供以改写,因此无法完成您的请求。如果您能提供具体的文本内容,我将会很乐意帮您进行伪原创的修改。请再次提供需要处理的信息吧!Universal-1在提升声纹识别的精准度上与Conformer-2相比有如下优化:
    • Diarization 错误率降低了 7.7% 的相对值。
    • 结合WER与演讲者标识精确度的cpWER指标相对降低了13.6%。
    • 演讲者人数估算的精确度提升了大约71.3%。

掌握Universal-1的运用方法

当前,Universal-1已经发布了英语和西班牙语的版本,并且正在准备发布德语和法语版。未来,AssemblyAI计划在其通用模型中增加更多语言的支持。想要尝试的用户可以通过Playground或是使用API进行体验。

  1. 在试验场中体验一下由于提供的原文为空,没有具体内容可以进行伪原创改写。如果您提供具体的文本内容,我很乐意帮您完成这项任务。体验Universal-1最为简便的方法是利用AssemblyAI的Playground平台。于Playground平台内,使用者能够直接上载音频资料或提供YouTube连接,随后系统将迅速完成语音至文本的转换工作。
  2. 提供免费的API测试机会:顾客您可以免费完成注册,并获得一个API令牌。完成注册之后,请访问AssemblyAI的官方文档或欢迎Colab页面,它们提供了有用的指南来加速您的API使用入门过程。

如需了解更多有关Universal-1的相关信息,请参阅AssemblyAI发布的官方技术文档:https://www.assemblyai.com/discover/research/universal-1

Universal-1的使用情境

  • 智能对话系统可以高效且精确地处理庞大的客户数据集,给出至关重要的客户反馈见解与解析,不受限于发音特点、录制环境及发言者数量的影响。
  • 智能笔记应用程序创建精确且不含误导内容的会议纪要,作为生成基于大规模语言模型的大纲、待办事项及其他相关信息的基础,并确保其中的专业术语、发言人及时间标记均无误。
  • 创作设备面向终端用户的AI驱动视频剪辑工作流已创建完毕,该流程采用多语言精准的文字转换技术,并具备极低出错率与高度可信的时间戳数据支持。
  • 远端医疗服务系统通过精准且可靠的语音转文本技术自动处理临床文档录入及理赔申请流程,该技术特别擅长识别如药物名称与疾病诊断这类专业术语,并在复杂环境和远程录音中仍能保持高水平的转换准确性。
© 版权声明

相关文章