Vidu Q1 – 生数科技推出的高可控视频大模型

AI工具1年前 (2025)发布 ainav

258 0 0

什么是Vidu Q1

Vidu Q1是由清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队开发的先进视频大模型。该模型在多主体细节控制、音效同步以及画质优化等方面实现了突破性进展。作为一款高精度视频生成工具，Vidu Q1能够实现对场景中多个主体的位置、尺寸、运动轨迹等参数进行精确调节，并支持在时间轴上标注音效类型和时长，音效同步精度达到±0.1秒。此外，该模型还能对画面模糊区域进行局部超分辨率重建处理，在4K视频放大8倍的情况下仍能保持清晰无马赛克效果。

Vidu Q1的核心功能

智能主体控制： 用户可以通过上传参考图像和输入文字指令，精准选取视频中的任意角色或物体，并对其位置（基于坐标轴定位）、大小（按百分比缩放）、运动轨迹（自定义路径曲线）以及动作细节（例如”抬手15度””眨眼频率2秒/次”）进行精确调整。实测表明，使用同一指令生成的10份视频文件中，角色偏移误差不超过5像素，而传统模型通常会超过200像素。
多主体协同控制： 在复杂场景中，Vidu Q1能够确保多个主体之间的动作和位置保持协调一致。这一特性对于制作动画、影视短片等需要处理多个角色的项目尤为重要。
精准音效管理： 用户可以在时间轴上标注音效类型和时长，例如在0:00-0:03秒设置风声（强度70%），并在0:04-0:05秒加入玻璃破碎声（优先左声道）。Vidu Q1的音效同步精度达到±0.1秒，显著提升了视频的沉浸感。
高清画质增强： 系统可以自动识别并修复画面中的模糊区域，在4K分辨率下将视频放大8倍后仍能保持清晰。用户还可以进一步调整画面细节，改善整体视觉效果。