SANA 1.5 – 英伟携手MIT及清北多家学术单位开发的文本转图像新型架构

AI工具 1个月前 ainav
71 0

SANA 1.5指的是什么?

SANA 1.5是由英伟达与麻省理工学院、清华大学及北京大学等机构共同开发的一款高效线性扩散变换器(Linear Diffusion Transformer),专为文本转图像生成任务设计。基于SANA 1.0的改进,其引入了三大创新点:通过深度增量的方法将模型参数规模从16亿提升至48亿,实现更高效的训练扩展并大幅节省计算资源;采用高效压缩技术对模型进行剪枝处理,利用块重要性分析确保在不同计算预算下灵活调整模型尺寸;推理时的性能增强,则是依靠重复采样和基于视觉语言模型(VLM)的选择机制来提升小规模模型生成图像的质量。

SANA 1.5

SANA 1.5的核心特性

  • 提升训练效率的方法SANA 1.5 利用深层扩展方法,能够把模型的规模由最初的16亿个参数增加至48亿个参数,并大幅节约了运算资源。
  • 模型的精简优化SANA 1.5 利用基于模块重要度解析的压缩策略来缩减大型模型至所需规模,同时确保性能下降最小化。该技术通过对扩散变换器内输入与输出间相似性特征的研究,剔除非关键模块,并经微调迅速恢复模型效能。
  • 分析过程中拓展思维范围SANA 1.5 引入了一种推理扩展方法,借助重复抽样与依托视觉语言模型(VLM)的挑选机制,在推理过程中使得小规模模型能够达到大规模模型的表现水平。
  • 多种语言兼容性支持SANA 1.5 兼容多种语言的文本输入功能,涵盖中文、英语以及表情符号,适用于全球范围内的内容创造及地方特色的设计需求。
  • 开放源代码及社群支援SANA 1.5的源代码及预训练模型现已公开发布,科研人员与开发人士能够对其进行个性化调整与功能拓展,从而加速该技术在科学研究及产业实践领域的广泛应用。
  • 推断效能借助CAME-8bit优化器,SANA 1.5能够在一个普通的消费级GPU上实现大型模型的精细调整,从而使高品质图像的生成变得更加高效且易于获取。

对SANA 1.5执行性能评估

  • 模型扩展(Model Expansion)SANA 1.5运用模型扩张策略,将参数规模由16亿扩展至48亿,并使GenEval评分从0.66提升到0.72,几乎与拥有24亿参数的业内领先者Playground v3(其评分为0.76)相媲美。与此同时,推理延迟减少了5.5倍。
  • 模型精简(Model Slimming)借助深度剪枝技术,SANA 1.5能够在不同的计算资源需求下灵活改变其规模。比如,在将一个含有48亿个参数的模型裁剪至包含约16亿个参数后,并通过执行100步微调过程,该模型在GenEval评估中的得分达到了0.672,这一成绩优于SANA 1.0版本中同样具有16亿参数的模型所获得的0.664分。
  • 推理扩展(Inference Expansion)通过对多种样例进行创建,并利用视觉语言模型挑选出最优样的方式,SANA 1.5的评估得分由原来的0.72提升至0.80,这一成绩超越了Playground v3所获得的0.76分。

SANA 1.5 的仓库链接

  • 关于技术的arXiv学术文章访问此链接可查阅相关论文: https://arxiv.org/pdf/2501.18427

SANA 1.5的使用情境

  • 创新构思SANA 1.5 可依据文字提示创造高品质影像,广泛应用于创新设计行业之中,涵盖广告制作、绘图构思及游戏艺术等多个方面。
  • 教育支持教育者能够利用 SANA 1.5 创作关联课程的视觉内容,以促进学生更清晰地掌握复杂理论。
  • 电影与电视节目创作于电影电视创作领域内,SANA 1.5 能够创造概念艺术作品及布景规划图像,助力导演与美术设计师迅速酝酿并检验其创新想法。
  • 工程项目规划与设计借助 SANA 1.5,工程师能够创建工程设计的可视化图像,这有助于团队更清晰地把握设计理念,并对方案进行改进。
  • 手机应用程序借助模型的深度裁剪与推理过程中的扩充技术,SANA 1.5 实现了在移动端的高效执行,并能够支持移动应用程序即时生成图像。
  • 内容审查借助于诸如 ShieldGemma-2B 的安全审查机制,SANA 1.5 能够预先评估用户的文字输入,在图片创作之前验证信息的安全性,从而有效防止产生不合适的内容。