仅凭一张图生成电影级数字人视频，阿里云通义万相开源S2V模型

120 0 0

8月26日讯阿里云近日宣布开源其最新多模态视频生成模型——通义万相Wan2.2-S2V。

这一创新模型仅需一张静态图片和一段音频，即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频。

该模型支持驱动多种类型图片，包括真人、卡通、动物和数字人等，并兼容肖像、半身及全身等多种画幅。用户上传音频后，即可让图片中的形象完成说话、唱歌或表演等一系列动作。

Wan2.2-S2V还支持通过文本进行控制。输入Prompt后，可调节视频画面效果，使主体的运动与背景变化更加丰富。

例如，上传一张人物弹钢琴的照片、一段歌曲和一段文字，模型就能生成一段完整且声情并茂的钢琴演奏视频。该视频不仅能高度还原原图形象，还能让面部表情、嘴部动作与音频完美对齐，手指手型、力度和速度也能精准匹配音乐节奏。

Wan2.2-S2V采用先进的通义万相视频生成基础模型，并融合了文本引导的全局运动控制和音频驱动的局部精细动作控制。同时，该模型引入Adaptive Instance Normalization（AdaIN）和CrossAttention机制，实现更精准的音频控制效果。

为确保长视频生成的质量，Wan2.2-S2V通过层次化帧压缩技术，将历史参考帧数量从数帧扩展到73帧，显著提升了长视频的生成稳定性。

在性能方面，Wan2.2-S2V在FID（视频质量）、EFID（表情真实度）和CSIM（身份一致性）等关键指标上均达到行业领先水平。

自今年2月以来，通义万相已连续开源多款模型，包括文生视频、图生视频、首尾帧生视频、全能编辑及音频生视频等。目前，在开源社区和第三方平台的下载量已突破2000万。

开源地址：

体验地址：

文章版权归作者所有，未经允许请勿转载。

ainav

41 0

ainav

143 0

ainav

117 0

ainav

3 0

ainav

95 0

ainav

38 0