8月26日讯 阿里云近日宣布开源其最新多模态视频生成模型——通义万相Wan2.2-S2V。
这一创新模型仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频。

该模型支持驱动多种类型图片,包括真人、卡通、动物和数字人等,并兼容肖像、半身及全身等多种画幅。用户上传音频后,即可让图片中的形象完成说话、唱歌或表演等一系列动作。
Wan2.2-S2V还支持通过文本进行控制。输入Prompt后,可调节视频画面效果,使主体的运动与背景变化更加丰富。
例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,模型就能生成一段完整且声情并茂的钢琴演奏视频。该视频不仅能高度还原原图形象,还能让面部表情、嘴部动作与音频完美对齐,手指手型、力度和速度也能精准匹配音乐节奏。

Wan2.2-S2V采用先进的通义万相视频生成基础模型,并融合了文本引导的全局运动控制和音频驱动的局部精细动作控制。同时,该模型引入Adaptive Instance Normalization(AdaIN)和CrossAttention机制,实现更精准的音频控制效果。
为确保长视频生成的质量,Wan2.2-S2V通过层次化帧压缩技术,将历史参考帧数量从数帧扩展到73帧,显著提升了长视频的生成稳定性。

在性能方面,Wan2.2-S2V在FID(视频质量)、EFID(表情真实度)和CSIM(身份一致性)等关键指标上均达到行业领先水平。
自今年2月以来,通义万相已连续开源多款模型,包括文生视频、图生视频、首尾帧生视频、全能编辑及音频生视频等。目前,在开源社区和第三方平台的下载量已突破2000万。
开源地址:
-
GitHub:https://github.com/Wan-Video/Wan2.2
-
魔搭社区:https://www.modelscope.cn/ models / Wan-AI / Wan2.2-S2V-14B
-
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
体验地址:
-
通义万相官网:https://tongyi.aliyun.com/ wanxiang / generate
-
阿里云百炼:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215