SmartMore与多家高校合作推出提升增强多模态互动功能的Lyra项目

AI工具3个月前发布 ainav
104 0

Lyra指的是什么?

Lyra是由香港中文大学、SmartMore及香港科技大学共同开发的一款高效的多模态大型语言模型(MLLM),旨在增强语音、视觉与文本模式之间的互动质量。该模型依托于开源的大规模基础架构,结合了多模态LoRA组件和潜在的多模态规范化技术,以降低训练成本并减少数据需求量。Lyra还通过构建一个包含大量长音频样本的大型多模态数据库来处理复杂的语音输入问题,并实现全面的认知功能覆盖。在各种模式的理解与推理任务中,Lyra表现出了顶尖的技术水平,并且更加节约计算资源和训练所需的数据量。

Lyra

Lyra的核心特性

  • 跨媒体感知与逻辑推断Lyra具备解析与操作包括图像、视频、音频及文本在内的多种数据类型的能力,并能够完成高难度的理解与推断工作。
  • 语音核心功能该模型在语音理解上进行了专门优化,能够高效地识别与处理长时间的音频内容,并且在人机对话中展现了卓越的表现。
  • 有效处置Lyra能够在训练与推理过程中实现更高的效率,利用较少的数据及计算资源,并且非常适合应用于需要实时处理及支持长上下文的多模态场景中。
  • 实时创作能够同步创建文字与声音的反馈,并在交流互动过程中即时回应。
  • 多模态互动通过利用潜在的多种模式正则化组件与特征抽取单元,增强各模式间的信息交流互动,进而优化模型的表现能力。

Lyra的核心技术机制

  • 低秩适应的多模式应用利用LoRA技术适应多种类型的输入模式,该模型不仅保持其原有的视觉处理功能,还在语音处理方面增强了性能,并降低了对训练数据量的要求。
  • 可能的多模态规范化工具利用动态时间规整(Dynamic Time Warping, DTW)方法,把声音标识和相应的文字标记进行同步匹配,确保声音形式的信息在意义上同文字表达相吻合。
  • 可能的多种形态抽取器通过评估各种类型的数据标记与文字查询之间的关联程度,并动态挑选出对任务最有帮助的标记进行保存,从而提升了训练及推断过程中的效率。
  • 整合长段语音功能创建特定的长时间语音SFT数据集合,运用压缩方法来管理长语音标记,使得模型能够接收并分析持续几小时的音轨输入。
  • 实时文字转语音技术融合了流式生成技术,该模型能够在创建文字内容的过程中同步提供相应的语音输出,从而达成流畅的多媒体互动感受。
  • 构建数据集合为了训练与提升Lyra的表现,研究人员创建了一个高品质的数据集合,其中包含了超过150万个多元化的多媒体样本以及逾1.2万个长时间音频样本,这些数据广泛涵盖了多种环境与专业范畴。

Lyra项目的网址

  • 官方网站项目的入口:全方位的Lyra
  • Git存储库:可在dvlab研究小组的GitHub仓库中找到Lyra项目,网址为https://github.com/dvlab-research/Lyra。
  • HuggingFace的模型集合访问这个链接以查看由zszhong整理的Lyra数据集合:https://huggingface.co/collections/zszhong/lyra-data
  • 关于arXiv上的科技文章在学术预印平台ArXiv上发布的一篇研究论文(编号为2412.09501)中,研究人员分享了他们的最新发现。

Lyra的使用情境

  • 人工智能助理充当智慧助理的角色,负责解读并执行用户发出的口语命令,涵盖信息服务检索、日程安排协助及提醒事项配置等功能。
  • 客户支持服务在客服行业里,通过语音及文字沟通来解决客户的询问、抱怨以及技术援助等相关事宜。
  • 教育培训作为一种教学支持工具,它能够提供音频解说、帮助理解课程信息并回答问题,并在语言学习中进行发音与听力的练习。
  • 医疗卫生在医疗卫生行业,支持病人利用声音进行健康状况的询问,并可充当医师的工作助手,解析及概括病人的就医档案。
  • 内容审查对图像、视频及文字材料进行解析,并实施内容审查,以辨别并移除不合适的信息。
© 版权声明

相关文章