阿里巴巴达摩院开源视频生成模型通义万相 Wan2.2：首创电影美学控制系统

222 0 0

7月28日，阿里巴巴重磅开源视频生成模型——通义万相Wan2.2，此次共推出三款革新性模型：文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)，以及统一视频生成(Wan2.2-IT2V-5B)。其中文生视频和图生视频模型均为全球首个采用MoE架构的视频生成方案，总参数量达270亿，激活参数140亿，并首次实现电影级美学控制，画面质量媲美专业电影。

开发者可通过GitHub、HuggingFace平台及魔搭社区获取模型和完整代码。企业用户则可以使用阿里云百炼服务调用API接口，普通用户也能在通义万相官网或通义App中直接体验最新功能。

作为视频生成领域的重要突破，通义万相2.2版本首次在扩散模型中引入MoE架构，有效解决了长Token处理带来的计算资源消耗问题。其中Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两款核心模型均采用高噪声专家与低噪声专家的双管齐下模式：前者负责把控整体布局，后者专注于细节优化。相比同等规模参数的传统架构，在计算资源消耗上节省约50%，而在复杂动作处理、人物交互表现等关键指标上实现显著提升。

通义万相最引人注目的是其全球首创的“电影美学控制系统”。该系统能够精准调控光影、色彩、构图等关键要素，并细致刻画人物微表情。例如，输入“黄昏”、“柔光”、“边缘光”、“暖色调”、“中心构图”等指令，模型即可生成落日余晖下的浪漫场景；而通过“冷色调”、“硬光”、“平衡图”、“低角度”等参数组合，则能实现科幻片级别的视觉效果。

此外，通义万相还开源了一款轻量级统一视频生成模型（5B参数），该模型支持同时处理文生视频和图生视频任务，并可部署在消费级显卡上运行。其采用高压缩率的3D VAE架构，在时间和空间压缩比上达到4×16×16，信息压缩效率提升至64倍。仅需22GB显存即可快速生成5秒高清视频，成为目前帧率最高（24帧/秒）、画质最佳（720P）的开源视频生成模型。

自今年2月起，通义万相已连续发布文生视频、图生视频、首尾帧生视频及全能编辑等多个版本，在开源社区累计下载量已突破500万次。

附开源地址：

GitHub：https://github.com/Wan-Video/Wan2.2

HuggingFace：https://huggingface.co/Wan-AI

魔搭社区：https://modelscope.cn/organization/Wan-AI

# AI资讯