阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2:首创电影美学控制系统

AI资讯7个月前发布 ainav
222 0

7月28日,阿里巴巴重磅开源视频生成模型——通义万相Wan2.2,此次共推出三款革新性模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B),以及统一视频生成(Wan2.2-IT2V-5B)。其中文生视频和图生视频模型均为全球首个采用MoE架构的视频生成方案,总参数量达270亿,激活参数140亿,并首次实现电影级美学控制,画面质量媲美专业电影。

开发者可通过GitHub、HuggingFace平台及魔搭社区获取模型和完整代码。企业用户则可以使用阿里云百炼服务调用API接口,普通用户也能在通义万相官网或通义App中直接体验最新功能。

阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2:首创电影美学控制系统

作为视频生成领域的重要突破,通义万相2.2版本首次在扩散模型中引入MoE架构,有效解决了长Token处理带来的计算资源消耗问题。其中Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两款核心模型均采用高噪声专家与低噪声专家的双管齐下模式:前者负责把控整体布局,后者专注于细节优化。相比同等规模参数的传统架构,在计算资源消耗上节省约50%,而在复杂动作处理、人物交互表现等关键指标上实现显著提升。

阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2:首创电影美学控制系统

通义万相最引人注目的是其全球首创的“电影美学控制系统”。该系统能够精准调控光影、色彩、构图等关键要素,并细致刻画人物微表情。例如,输入“黄昏”、“柔光”、“边缘光”、“暖色调”、“中心构图”等指令,模型即可生成落日余晖下的浪漫场景;而通过“冷色调”、“硬光”、“平衡图”、“低角度”等参数组合,则能实现科幻片级别的视觉效果。

阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2:首创电影美学控制系统

阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2:首创电影美学控制系统

阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2:首创电影美学控制系统

此外,通义万相还开源了一款轻量级统一视频生成模型(5B参数),该模型支持同时处理文生视频和图生视频任务,并可部署在消费级显卡上运行。其采用高压缩率的3D VAE架构,在时间和空间压缩比上达到4×16×16,信息压缩效率提升至64倍。仅需22GB显存即可快速生成5秒高清视频,成为目前帧率最高(24帧/秒)、画质最佳(720P)的开源视频生成模型。

自今年2月起,通义万相已连续发布文生视频、图生视频、首尾帧生视频及全能编辑等多个版本,在开源社区累计下载量已突破500万次。

附开源地址:

GitHub:https://github.com/Wan-Video/Wan2.2

HuggingFace:https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI

© 版权声明

相关文章