近日,B站团队开源的动漫视频生成模型 AniSora 于7月2日正式推出全新版本——AniSora V3 预览版。
作为 Index-AniSora 项目的重要更新,V3 版本在图像质量、动作连贯性以及艺术风格多样性方面实现了显著提升。这一突破性进展为动漫制作人、漫画作者以及VTuber创作者提供了更为高效专业的创作工具。
AniSora V3 支持多种动漫视频生成模式,包括番剧片段、国创动画、漫画改编、VTuber内容、动画PV以及鬼畜(MAD)等类型。这种多维度的支持极大拓展了创作者的表达空间。
相较于前代,AniSora V3 基于B站此前开源的 CogVideoX-5B 和 Wan2.1-14B 模型,结合强化学习与人工反馈(RLHF)框架,实现了视频生成质量与动作一致性的双重提升。其显著特点包括:
-
在时空控制方面取得重大突破:V3版本优化了时空掩码模块(Spatiotemporal Mask Module),能够处理更为复杂的动画任务,例如精细化的表情动作捕捉、动态镜头切换以及局部图像引导生成。以”五位女孩随镜头放大起舞,左手高举头顶再下放至膝盖”为例,系统能准确生成流畅自然的舞蹈动画,实现画面与动作的完美同步。
-
数据处理能力显著增强:通过新增的数据清洗流水线和超过1000万高质量动漫片段(源自100万个原始视频)的训练,V3确保了输出内容的一致性与细节丰富度。
-
硬件兼容性提升:原生支持华为 Ascend910B NPU,基于国产芯片实现训练,较前代推理速度提升20%,4秒高清视频生成时间缩短至2-3分钟。
-
多任务处理能力强化:新增单帧图像转视频、关键帧插值和唇部同步等功能,特别优化了漫画改编与VTuber内容创作的支持。
在权威测试中,AniSora V3于VBench基准测试及双盲主观评价中均达到行业领先水平(SOTA),尤其在处理复杂动作(如违背物理规律的动漫特技)时表现优异。
RLHF框架首次应用于动漫视频生成领域,借助AnimeReward和GAPO工具对模型进行微调优化,确保输出更贴合人类审美与动漫艺术风格需求。目前已有开发者基于V3开始研发定制化插件,例如专门增强吉卜力动画风等特定风格的生成效果。
AniSora V3支持广泛的应用场景:
-
单图转视频:用户上传高质量动漫图像,并配合文本描述(如”角色在行驶的车中挥手,头发随风摆动”