4月21日,昆仑万维正式发布了全球首个基于扩散强制机制(Diffusion-forcing)框架的无限时长电影生成模型——SkyReels-V2,并宣布将其开源。该模型通过创新性地整合多模态大语言模型(MLLM)、多阶段预训练技术(Multi-stage Pretraining)、强化学习算法(Reinforcement Learning)和扩散强制机制,实现了视频生成领域的协同优化。
以下是项目的开源资源链接:
SkyReels-V2
-
GitHub地址:https://github.com/SkyworkAI/SkyReels-V2
-
论文链接:https://arxiv.org/abs/2504.13074
SkyReels-A2
-
HuggingFace地址:https://huggingface.co/Skywork/SkyReels-A2
-
GitHub地址:https://github.com/SkyworkAI/SkyReels-A2
-
论文链接:https://arxiv.org/pdf/2504.02436
目前的视频生成技术在追求更高视觉质量的同时,往往会导致动态效果不稳定;为了提高分辨率而限制了视频时长(通常为5-10秒);同时,通用多模态大语言模型难以解析电影的专业语法结构,比如镜头构图、演员表情和摄像机运动等信息。这些相互制约的技术瓶颈,严重影响了生成长视频的逼真度和专业电影风格的表现力。
针对上述挑战,SkyReels-V2实现了技术上的重要突破,并提供了丰富的应用场景:
- 故事生成:通过AI创作完整的故事脚本并自动生成对应的视频内容;
- 图像转化为视频:将静态图像转换为动态的连续视频片段;
- 运镜专家:提供专业的镜头运动控制,模拟电影级拍摄效果;
- SkyReels-A2:实现多主体一致性的复杂场景视频生成。
SkyReels-V2目前支持最长至数千帧的视频生成:
官方测试结果表明:
SkyReels-V2在多个评估指标上均达到行业领先水平,特别是在复杂场景下的视频生成质量、动态效果流畅度和细节还原能力方面表现出色。它能够准确捕捉并再现真实世界的物理运动规律,生成的视频内容不仅视觉逼真,而且具备高度的叙事连贯性。