阿里开发的DDColor AI图像着色工具——让黑白照片焕发色彩

AI工具3个月前发布 ainav
138 0

DDColor指的是什么

DDColor是由阿里达摩院的研究团队开发的一款开源AI色彩填充工具,能够快速为黑白照片添加颜色转变为全彩影像。其创新之处在于采用双解码器系统(包括像素和色彩解码器),自动对灰阶图像进行上色处理,以生成更为真实且生动的彩色图片,并力求克服传统图像着色技术中存在的多模态不确定性和高度欠定性问题。

DDColor

DDColor的操作机制

DDColor运用了一个端到端的深度学习架构来操作,其图像上色的过程依赖于两大核心解码器模块。DDColor的工作原理下面是DDColor的主要操作步骤:

  1. 特性抽取首先,采用预先训练好的图像分类模型(例如ConvNeXt)充当编码器的角色,以从给定的灰度图中抽取高层次的语义特性。这类特性涵盖了图像中的构造细节、纹理属性及物体相关信息。
  2. 图像解析组件从编码器中抽取的特征会被传递给一个像素解码器处理,该解码器包含多个逐步提升图像空间分辨率的上采样层级。为了确保在重构空间布局的过程中保持细致的信息,每一层上采样都通过跳跃连接与编码过程中的相应层次相接。
  3. 色彩解析工具色彩解析模块接收来自像素解析模块的不同层级视觉特性信息,并据此产生色彩查询项。这些色彩查询项是经过训练以捕捉图片各部分的色调差异而得来的。借助交叉注意力机制,色彩解析器将这些查询与其对应的图像特征进行配对,进而产出与原图内容协调一致的颜色配置。
  4. 互交关注及自我关注模式于色彩解析模型内,交叉注意力机制旨在连接色彩问询和视觉元素特性间的联系;随后通过自我关注层级来深化优化这些色彩问询,确保它们更精准地映射出图片的实际含义。
  5. 色彩多样性下降为提升生成图片的色彩多样性,DDColor采用了一种新的颜色丰富度损耗计算方式,该方法依据颜色平面的标准偏差与平均值设计。此损耗函数促使模型创造出更为绚丽多彩的画面。
  6. 结合与呈现在末尾阶段,像素解码器与色彩解码器的结果经由一个整合单元合并,以创建完整的彩色图像。这一整合步骤利用简单的点乘运算完成,并借助一个1×1的卷积层来形成最终的AB(色调和饱和度)通道。
  7. 培训与改进在整个训练期间,该网络通过减少像素误差、感知差异、对抗偏差以及色彩多样性缺失来改进模型性能。这些不同的损失衡量标准协同工作,以保证产生的图像不仅看起来真实,在内容含义上也具有一致性。

DDColor的正式访问入口

  • 官方的GitHub仓库链接如下:https://github.com/piddnad/DDColor
  • ModelScope的执行网址为:https://www.modelscope.cn/models/iic/cv_ddcolor_image-colorization/summary
  • 复现网址:https://replicate.com/piddnad/ddcolor

DDColor Replicate

关于DDColor的运用方法

  1. 浏览DDColor在ModelScope魔搭平台的页面或是其在Replicate上的执行链接。
  2. 上传您的灰度图像或是挑选一个示范照片
  3. 请点击开始测试,并耐心等待图片完成着色。
© 版权声明

相关文章