VidSketch – 浙江大学推出的视频动画生成框架

AI工具1年前 (2025)发布 ainav

224 0 0

VidSketch是什么

VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架，根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于“层级草图控制策略”动态调整草图的引导强度，适应不同绘画技能的用户，借助“时空注意力机制”增强视频的时空一致性，解决帧间连贯性问题。VidSketch 降低了视频创作的技术门槛，让普通用户轻松实现高质量动画创作，满足多样化的艺术需求。

VidSketch的主要功能

高质量视频动画生成：支持从手绘草图和简单文本描述中生成高质量、时空连贯的视频动画。
适应不同绘画技能：自动评估草图的抽象程度，动态调整生成过程中的引导强度，适应从新手到专业用户的绘画水平。
时空一致性增强：提升视频帧间的连贯性和流畅性，避免撕裂或闪烁问题。
多样化风格支持：支持多种视觉风格（如现实主义、奇幻风格、像素艺术等），满足不同用户的审美需求。
低门槛创作：无需专业视频编辑技能，普通用户轻松创作高质量的视频动画。

VidSketch的技术原理

基于扩散模型的视频生成：用视频扩散模型（Video Diffusion Models, VDMs）作为基础框架。扩散模型基于逐步去除噪声生成图像或视频，VidSketch 将这一过程扩展到视频生成中，同时引入时空一致性控制。
层级草图控制策略：基于定量分析草图的连续性、连通性和纹理细节，评估草图的抽象程度，根据抽象程度动态调整草图在生成过程中的引导强度。确保用户提供的草图非常抽象，生成的视频也能保持高质量和一致性。
时空注意力机制：
为解决视频帧间连贯性问题，VidSketch 引入时空注意力机制。基于当前帧的查询（Q）与前一帧、第二帧和第一帧的关键/值（K/V）计算注意力权重，增强视频帧间的时空一致性，避免生成的视频出现撕裂或闪烁。
草图与文本的协同引导：用户输入的手绘草图和文本提示共同引导视频生成。草图提供视觉结构，文本提示提供语义信息，两者的结合使生成的视频符合草图的视觉布局，满足文本描述的内容。