ByteDance的扩散模型分辨率调整工具 – ResAdapter

AI工具3个月前发布 ainav
117 0

ResAdapter指的是什么?

由字节跳动的研究团队开发的ResAdapter是一种专为扩散模型设计的分辨率调整工具(例如Stable Diffusion),使这些图像生成功能能够创建任意大小及宽高比的画面,并且保留其独特的艺术风格。由于这类模型在训练阶段仅限于特定尺寸图像的学习,用户若尝试生成超出该尺寸范围的新图时,可能会遇到质量问题如变形或不连贯等现象。ResAdapter的主要功能是克服上述限制,在不影响原有画风的情况下扩大可生成图像的分辨率和比例选项。

ResAdapter

访问ResAdapter的官方门户

  • 官方网站地址:https://res-adapter.github.io/
  • ByteDance的适应器资源项目托管在GitHub上,访问地址为:https://github.com/bytedance/res-adapter
  • JiaxiangC开发的Res-Adapter模型可从Hugging Face平台获取:https://huggingface.co/jiaxiangc/res-adapter
  • 研究报告链接:https://arxiv.org/abs/2403.02084,出自arXiv数据库。

ResAdapter的主要特点与功能

  • 图像分辨率提升(Image Resolution Enhancement)让模型能够创建比其训练时所用分辨率更低的图片,这样就能生产出尺寸较小而依然维持精细度与品质的画面。
  • 解析度扩展(Resolution Expansion)让模型具备生产超出其训练时所用分辨率图片的能力。这一特性对于那些要求高清输出的情境尤为关键,比如印刷和大型显示器展示等领域。
  • 领域一致性(Domain Uniformity)当创建多种分辨率的图片时,ResAdapter能够维持图像样式与训练期间所使用的样式的统一性,防止因调整分辨率而导致的样式偏差或不协调。
  • 即时可用(Ready-to-Use)ResAdapter被设计成能够无缝接入各种现存的扩散模型之中,只需做轻微调整即可广泛适用于多样化的场景与不同类型的模型。
  • 相容性ResAdapter不但能够支持基本的扩散模型,还能同各类图像创作组件(例如ControlNet、IP-Adapter及LCM-LoRA)相融合,从而完成更为复杂多样的图像创造工作。

ResAdapter的操作机制

ResAdapter的架构

  • 解析模型架构第一步是对类似Stable Diffusion这样的扩散模型中的UNet结构进行剖析,识别出那些受图像尺寸影响较大的层次。一般而言,由于其感受野大小恒定不变,卷积层会特别受到分辨率变化的影响。
  • 加入ResCLoRA组件在UNet结构中的下采样模块与上采样模块的卷积部分嵌入了分辨率卷积轻量级调整方法(ResCLoRA)。该技术通过引入低秩矩阵来灵活改变各卷积层的有效视野范围,确保模型能适应多样化的输入图像尺寸。
  • 采用ResENorm机制为了处理分辨率扩展的问题,提出了分辨率外推标准化(ResENorm)方法。该方法专门针对UNet结构内的组标准化组件进行调优,旨在让模型能够匹配高分辨率图像的数据特性,同时也维持其在原风格数据集上的表现能力。
  • 多种分辨率下的训练过程于训练期间,采用包含多种解析度影像的数据集。此多解析度培训方法使得ResAdapter能够掌握在各类解析度中创建图像的技能,并且不干扰原初样式领域的特性。
  • 融入至扩散模型中完成训练后,ResAdapter作为一款灵活兼容的组件,能够嵌入各类风格的扩散模型之中。这表明,不论基础模型侧重于哪一种风格领域,ResAdapter都能帮助扩大其输出图像的分辨率区间。
  • 创建图片于推演期间,配备了ResAdapter组件的扩散模型具备依照使用者需求创造不同像素密度图片的能力。该系统利用给定的文字指引或是诸如由ControlNet输出的画面线索等附加条件,经由一系列逐步消除噪声的过程来构造出清晰度高的影像作品。
© 版权声明

相关文章