智谱AI发布的情感驱动全链路语音系统——GLM-4-Voice

AI工具3个月前发布 ainav
96 0

GLM-4-Voice指的是什么?

智谱AI开发了名为GLM-4-Voice的一体化情感语音系统,该系统具备直接处理中英文音频输入与输出的能力,并能即时响应用户的口语指令。它能够根据用户的需求灵活调节音调、语速及方言等元素来调整表达的情感色彩。这一模型架构包括三个关键组件:GLM-4-Voice-Tokeniser用于将连续的语音流转换成离散的声音标记;GLM-4-Voice-Decorder则负责把这些声音标记转回为流畅的音频输出;而基于预训练模型GLM-4-9B改进而成的GLM-4-Voice-9B,是实现语音理解和生成的核心。通过端到端的设计思路,减少了处理过程中信息的损失,并提升了整体交互的真实感与连贯性。此外,该系统还具备支持低延迟实时沟通的能力,从而为用户提供一个更加丰富和自然的语音交流环境。

GLM-4-Voice

GLM-4-Voice的核心特性

  • 把握与创造声音信息能够实时翻译并产生中英语言的音频,确保人与机器间的交流顺畅无阻。
  • 情绪表述通过模仿各种情绪和声调变化,比如喜悦、哀伤、愤怒或恐惧等,使得语音反馈听起来更为真实流畅。
  • 调整讲话速度依据用户指导调节讲话速度,适用于各种交谈情境。
  • 即时干预与命令录入允许用户在任何时候中断语音回应,并提供新指令以修改对话流程。
  • 多种语言及地方话的支持提供中文、英文以及包括粤语、重庆 dialect 和北京 dialect 在内的多种中国地方语言的支持。
  • 即时互动反馈构建流畅思维框架,以极低延时达成高品质语音交流。

GLM-4-Voice的核心技术机制

  • 全程建模流程不同于传统的方法(即先通过ASR转换为文本,再用LLM处理文本最后由TTS转回语音),GLM-4-Voice采用单一综合模型实现对语音的解析与合成,从而减少了信息传递过程中的损耗。
  • 音频分词器通过运用基于监督学习的音频分词器,可以将连贯的声音信号转换为独立的令牌单元,并以每秒12.5个样本的较低比特率来维持其意义内容及非言语特性。
  • 声音译码器利用Flow Matching架构设计的语音解码器能够把分散的语音标记转换为连贯的声音输出,最少仅需通过10个标记就能启动生成过程,从而减少了交谈时的延时。
  • 预先训练与校准GLM-4-Voice-9B基于GLM-4-9B进行了预先培训与校准,旨在处理并产生数字化的语音标记。通过使用庞大的音视频及文字资料进行预训练,该模型获得了出色的音频解析和模拟技能。
  • 连续推断该功能具备连续推理的能力,允许模型轮换生成文字与声音,并利用文字做为基准来确保回答的质量。此外,它还能依据用户的声音命令即时修改其声音反馈。

GLM-4-Voice项目的网址

  • 用户体验产品由于您提供的链接直接指向一个具体的网页地址,而没有提供具体的内容文本,我无法直接对这个网址对应的文章进行伪原创改写。如果您可以复制粘贴需要修改的文字内容到这里,我很乐意帮您完成这项任务。同时,请确保这样做符合相关版权法律法规的要求。
  • 官方网站 проекта

    注:此处的改写使用了俄文,因为直接在中文内变换表述而不偏离“项目官网”的核心含义较为局限。如需纯中文且更贴近原文的伪原创改写,可以表达为:“官方项目网站”。根据需要选择合适的版本。:在zhipuai.cn网站的新闻板块中查看最新消息。

  • Git代码库:访问该项目的GitHub页面,请前往 https://github.com/THUDM/GLM-4-Voice
  • arXiv科技文章访问该链接可获取文件:https://arxiv.org/pdf/2412.02612,内容经过重新表述但仍保留原意。请注意,由于您提供的具体内容有限,改写部分无法展示。此提示说明了如何根据要求处理文档中的信息。

GLM-4-Voice的使用情境

  • 智能化助理在智能手机和智能家居产品里,作为智慧帮手的我通过语音交流协助用户执行多种操作,包括设定提醒事项、获取天气信息以及操控家庭智能装置等功能。
  • 客户支持服务于客户服务部门中,我以虚拟助手的身份运作,利用自然语言处理与声音合成的技术手段,向用户供应咨询服务并协助解决遇到的问题。
  • 教学与求知过程在教学行业中,担任语言辅助工具的角色,助力学员提升语音准确性、增强听觉理解和口头交流能力,并给出定制化的学习指导方案。
  • 休闲与传媒于文娱领域内应用的语音合成功能,旨在为动画片、电子游戏及音频书籍等行业产品供应既自然又充满情感色彩的声音呈现。
  • 资讯与报道应用于新闻广播,能够迅速地把文字资讯转化为音频形式,服务于有听音需求的受众。
© 版权声明

相关文章