阿里开发的用于转换视频至卡通风格的AI框架——Cartoonify

AI工具2年前 (2025)发布 ainav

581 0 0

Diffutoon指的是什么

由阿里巴巴与华东师范大学的研究团队共同研发的Diffutoon是一款能够将实际视频转换为卡通动漫风格的人工智能系统。它利用基于扩散模型的技术进行可编辑式的卡通上色，从而实现从现实感影像到动画效果的转变。该技术通过细分为样式应用、一致性提升、结构指引和颜色填充等多个子任务来达到对视频内容进行高分辨率及长时渲染的目的。此外，Diffutoon还配备了根据文字提示修改视频细节的内容编辑功能，在确保视觉质量和一致性的前提下，实现了高效且高质量的动画处理效果。

Diffutoon的特性功能

动画影片的渲染过程Diffutoon借助扩散模型技术，把真实的视频内容转变为带有卡通或动漫特色的影片，达成视觉层面的平面与风格转变。这一过程涵盖了色彩及表面质感的调整，并且包含了对光线、阴影以及轮廓等细节的艺术性重塑，旨在再现手绘动画特有的观感。
支持高清显示Diffutoon具备处理高清晰度视频的能力，兼容最低为1536×1536像素的画面解析度，在放大的情况下或是于高分辨率显示器上均能维持图像的锐利与细腻程度，非常适用于追求高品质视频产出及呈现的应用场景。
影像剪辑用户可以利用文字说明来修改视频的内容，Diffutoon具备解析这些建议的能力，并能据此变更视频中的具体片段。其编辑工具允许更改人物形象及环境要素的视觉特征与特性，比如变换服饰的颜色或调节角色的表情。
时间连续性利用独特的算法与技术手段，Diffutoon保障了视频序列中各帧图像的一致性，在视觉风格及内容层面维持稳定状态，从而防止在播放过程中出现画面闪烁、色彩突然变化或是情节脱节的情况，显著提升了用户的观赏质量。
维持框架于视频风格化的实践中，Diffutoon具备辨识与维持关键构架细节的能力，例如人物外形及物件边际，并保证经过风格转换后，影像的核心元素及其形态依然保持鲜明的识别度。
智能上色Diffutoon配备了自动化上色的功能，能依据影片的内容与样式需求自主挑选适当的色调填充画面。这种自动化的上色技术不但加快了制作进度，还保证了色彩之间的和谐统一及视觉上的吸引效果，让成品视频的色泽更为协调一致。

访问Diffutoon的官方网站入口

项目官方页面：https://ecnu-cilab.github.io/DiffutoonProjectPage/
DiffSynth-工作室的源码托管在GitHub上，地址为：https://github.com/modelscope/DiffSynth-Studio
在arXiv平台上发布的一篇技术论文可在这里找到：https://arxiv.org/abs/2401.16224

Diffutoon的核心技术机制

扩展模型的运用Diffutoon采用扩散模型来驱动其图像生成技术，通过对大量图片与视频特征的学习，能够完成从复杂潜在空间向具体视觉内容的有效转化。
多个模块降噪Diffution开发了一种包含多个模块的降噪系统，此系统融合了如ControlNet和AnimateDiff的技术手段，旨在解决视频编辑中关于控制能力和一致性的挑战。
个性化设计、提升统一性、布局指引及色彩应用Diffutoon把给卡通上色的任务细分为四个小问题，每一个小问题都通过专门的模型来处理。
- 个性化设计运用定制的Stable Diffusion模型来达成动漫风格转换。
- 提升稳定性在UNet架构中加入由AnimateDiff衍生的运动组件，以确保视频帧间的内容连贯性。
- 架构指引通过运用ControlNet模型来捕获并维持视频中的结构细节，比如边缘线条。
- 上色另外一个ControlNet模型旨在为着色提供支持，并增强视频的品质，即便原始视频的分辨率不高也能实现这一目标。
移动窗口技术运用滑动窗口技术对每帧的潜在表示进行连续更新，此法有利于管理长时间视频内容，并确保帧与帧之间的衔接一致性。
修改分叉除主要的动画上色流程之外，Diffutoon 还配备了一个编辑模块，该模块能够依据文字指令创造修改讯号，并将以色彩影片的方式传递至主路径中使用。
高效的注意机制采用Flash Attention技术后，显著降低了对GPU内存的需求，并提升了在处理高清视频时的效率。
自主导向的分类器采用分类器驱动的自主调控方法，借助文字指引来提升图像品质。
DDIM采样算法采用DDIM（Denoising Diffusion Implicit Models）即去噪扩散隐式模型的调度机制来调控视频制作流程，实现了生成质量与处理速率之间的良好均衡。
后期制作技术运用诸如FastBlend之类的后期制作技术，可以显著提升视频的整体一致性和观赏体验。