实时数字人对话平台 VideoChat – 开源项目，初始数据传输延时仅为3秒

AI工具2年前 (2025)发布 ainav

612 0 0

VideoChat指的是什么？

VideoChat是一款开放源代码的实时数字人交流软件，具备语音输入与即时对话的能力。用户能够定制化设定数字人的外观及声音特征，并能直接实现音色克隆而无需经过训练阶段，其首次响应时间可缩短至3秒以内。该系统广泛应用于直播互动、新闻报道和智能聊天助手等需实时音频交互的场景中。VideoChat兼容GLM-4-Voice技术，提供两种生成模式：ASR-LLM-TTS-THG与MLLM-THG。此应用利用Gradio框架搭建，支持连续视频流输出，并且便于快速部署及构建相关服务。

VideoChat的核心特性

即时语音沟通允许用户通过语音与数字人物实现即时交流。
个性化声音与外观设定用户可依据个人需求挑选或定制数字人物的外形与音色，以达成个性化的互动体验。
通过语音录入并转换为文字展示把用户的声音指令转化为文字形式，随后利用大型语言模型来创建回应的内容。
口型匹配当数字人讲话时，其嘴部动作会与声音完美配合，从而增强现实效果。
实时视频传输利用Gradio平台实现流媒体视频的输出功能，提升了互动体验的顺畅度。

VideoChat的工作机制

声音辨识技术（ASR）利用如FunASR之类的工具把用户的语音信息转化为文字形式。
大型语言模型（LLM）依托如通义千问这样的模型，依据提供的文本创建对应的回答内容。
语音合成(TTS)利用如GPT-SoVITS之类的工具把文字答复转化为声音输出。
语音合成(TTS)利用如MuseTalk之类的方案，依据声音创建与之同步的数字化人物嘴唇动作视频。
并行处理的连续管道流程利用并行处理技术，在线推演与播放同步进行，从而加快反应速率。
Gradio库利用Gradio 5完成流媒体视频的展示，极大地方便了应用程序的部署及交互界面的设计工作。

VideoChat项目的仓库位置

Git代码库：访问Henry-23开发的视频聊天项目，请前往此链接：https://github.com/Henry-23/VideoChat
网上试用演示版本访问该平台以探索视频聊天相关的人工智能模型和应用：https://www.modelscope.cn/studios/AI-ModelScope/video_chat