FreeScale – 首个无须微调的推理架构,增强扩散模型创作力至8K图象解析度

AI工具3个月前发布 ainav
110 0

什么是FreeScale?

南洋理工大学、阿里巴巴集团及复旦大学共同研发了一款名为FreeScale的新框架,旨在无需微调即可提升预训练扩散模型在创建高清晰度图像和视频方面的性能。该框架通过管理和结合多尺度的信息流,成功解决了生成超出训练分辨率的内容时高频细节增多所引发的重复模式问题。值得一提的是,FreeScale开创性地实现了8K分辨率图像的生成,不仅大幅提升了内容质量和真实性,还缩短了推理所需的时间,并显著优于当前其他方法的表现。

FreeScale

FreeScale的核心特性

  • 高质量图像创建FreeScale具备生产最高达8K分辨率优质影像与视频的能力,进一步增强了视觉扩散模型在高清晰度内容创作方面的效能。
  • 不需要做细微调整不同于传统的需经微调的方法,FreeScale能够在不额外调整或重新培训预训练模型的情况下,直接生成高分辨率的结果。
  • 管理高频率数据:通过提取并整合多种规模的数据信息,FreeScale能够高效处理高频率数据,并降低产出内容中重复图案及虚假特征的出现概率。
  • 多层次数据整合通过融合多种规模的感受野信息,FreeScale改进了局部与整体细节的创建过程,从而增强了视觉内容的质量。
  • 精细调控详尽程度用户可以根据需求调节各个区域的细节程度,以达到更加精准的画面效果把控。

飞思卡尔的技术基础

  • 个性化设计的级联升采样:始于纯净的高斯噪声,渐进式地减少噪音,并利用训练时的解析度来创建图片,再通过上采样的方式获取更精细分辨率的画面。
  • 受限扩张卷积为了增大卷积的视野范围并降低局部冗余现象,FreeScale在其神经网络的部分层级中采用了扩张卷积技术。
  • 尺寸整合在执行去噪任务时,优化了自注意力机制的设计,使之能够兼容整体与细致的关注模式,并通过应用高斯模糊技术来结合由全局关注捕捉到的精细特征及由局部关注提取出的大规模含义信息。
  • 提取并整合频谱成分通过筛选必要的频率元素并实现它们的整合,以提升高分辨率图像的质量,并缓解由高频数据导致的重复图案现象。
  • 精细程度调节通过运用缩放余弦衰减因子来调控新增细节的程度,以达到针对各类语义区域精细化差异处理的效果。

FreeScale项目的网址

  • 官方网站PROJECT:freeprojects.site/cases/FreescaleCaseStudy
  • Git代码库:访问此链接以查看阿里ViLab的开源项目FreeScale – https://github.com/ali-vilab/FreeScale
  • arXiv科技文章该论文的详情可以在如下链接中找到:https://arxiv.org/pdf/2412.09626,其中包含了研究的具体内容与发现。

飞思卡尔的使用情境

  • 高品质图片创作于艺术设计与数码娱乐行业之中,创造高清艺术品、电子游戏素材及三维模型图像。
  • 创作视频材料于电影及视频创作领域内,创造高清画质的影像素材,增强影片品质,并降低后制工序的时间与成本开销。
  • 虚拟实境(VR)与扩增实境(AR)在使用VR和AR技术的应用程序里,创建出精细清晰的虚拟场景与物体,以增强用户的体验感受。
  • 宣传与市场推广设计具有吸引力的广告图片与视频,增强广告的视觉效果及魅力。
  • 社交平台发布的内容社交媒体上的用户创作并分享高质量的图像与影片,用于塑造个人形象或是交流内容。
© 版权声明

相关文章