FlowAct-R1：字节实时互动数字人视频生成

183 0 0

FlowAct-R1是什么

FlowAct-R1是由字节跳动公司最新研发的一款实时交互式数字人视频生成引擎。该系统突破性地实现了仅凭单张参考图像和音频输入即可生成无限时长的全身动态视频效果，为虚拟人技术设立了新的基准。通过创新性的分块扩散策略和多模态大语言模型的协同工作，FlowAct-R1在性能上实现显著突破：首帧延迟仅为1.5秒，并稳定支持25帧每秒的实时响应能力。

FlowAct-R1的主要功能

实时交互与无限时长生成：系统仅需提供单张参考图像和对应的音频文件，即可连续输出任意时长的全身动态视频内容。这种流式生成方式不仅保证了长时间运行的稳定性，更有效避免传统技术中常见的”崩脸”等问题。
低延迟与高帧率：通过优化算法架构，FlowAct-R1实现了仅1.5秒的首帧等待时间，并保持25帧/秒的稳定输出，为实时互动场景提供流畅自然的体验。
精细的动作与表情控制：得益于先进的动作捕捉技术和面部表情建模，该系统能够实现对数字人表情、姿态的精确控制，赋予虚拟角色更加生动逼真的表现力。
强大的泛化能力：FlowAct-R1展现出优异的内容生成泛化能力，可驱动不同风格和形象的虚拟角色，满足多种场景的应用需求。
多场景应用支持：完美适配视频会议、智能陪伴机器人、在线直播互动等多种应用场景，在提升用户体验的同时降低了技术门槛。