昆仑万维发布首个专为AI短视频戏剧创作设计的开源视频生成模型——SkyReels-V1

AI工具1年前 (2025)发布 ainav

443 0 0

SkyReels-V1指的是什么

昆仑万维发布了其首个专为AI短剧创作设计的开源视频生成模型——SkyReels-V1。该模型经过千万级别的高质影视数据微调，能够精确模拟人物的微妙表情和肢体动作，涵盖33种精细的表情以及400多种自然的动作组合，真实再现情感表达。SkyReels-V1支持从文本到视频（Text-to-Video）及图像到视频（Image-to-Video）的生成，在开源领域中达到顶级水准。依托自主研发的推理框架SkyReels-Infer，该模型显著提高了推理效率，并具备多GPU并行处理和低内存优化的能力，使得在普通消费级显卡上也能高效产出高质量视频内容。

SkyReels-V1的核心特性

高水准的电影级视频创作能够制作出拥有电影级别光照效果、精细的人物情感表达及流畅的身体动态的视频素材。每一张图像在布局设计、角色定位以及摄像机视角方面均展现出高水平的视觉艺术魅力。
对表情与动作实现精准调控提供涵盖33种细致人物表情及超过400种流畅动作组合的支持，能够创建包括放声大笑、愤怒呐喊、惊愕以及泪流满面在内的微妙面部表情。
生成影像自文本及图像提供文稿转视频与图片转视频两种创建模式。
多种应用场景支持能够应对单一人物的画面及多人群像的布局，兼容复杂情境与情绪传递。

SkyReels-V1的核心技术机制

自主研发的数据清理及标记流程通过利用优质影视资源（包括好莱坞影片及各类电视连续剧）作为培训材料，并借助自主研发的数据清理与标记流程，我们细致地对手势、面部情绪以及环境背景等多个方面进行了精确的注释工作，从而增强了系统对人体表现形式的认知水平。
分步式预先训练及调整请提供需要改写的具体内容，以便于我进行相应的调整和创作。
- 步骤一通过执行模型的领域自适应预训练过程，使基础模型能够更好地匹配以人为主体的视频内容。
- 第二步把文本转视频的模型改编成图片转视频的模型，并在同样的数据集上实施预训练。
- 第三阶段通过对优质子集实施微调，保障了模型在处理复杂的视频生成任务时能够维持高水准的表现。
多元模式的解析与创作通过整合角色面部表情、身体动作、环境背景及情节发展的多种模式信息，开发出一套能够理解和创建行为意义单位以及角色在空间中定位的技术方案，从而达到精确再现人物演出的效果。
提升推理效率的优化方法需要提供的原始内容未给出，请提供具体文本以便进行伪原创改写。
- 通过应用FP8量化技术、实施参数级迁移以及改进注意力机制（例如使用SageAttn），显著减少了内存消耗，并加快了推理进程的速度。
- 采用多GPU同步处理技术，并通过分布式的计算架构显著增强产出速率。

SkyReels-V1的程序库位置

Git存储库：在GitHub上可以找到SkyworkAI开发的SkyReels-V1项目。
HuggingFace的模型集合访问此链接以查看由Skywork创建的集合页面，该页面包含了skyreels-v1的相关内容：https://huggingface.co/collections/Skywork/skyreels-v1