全象驾驭 —— 基于AI的图像创作平台,提供精准的主题与空间调控能力

AI工具3个月前发布 ainav
88 0

OminiControl指的是什么

OminiControl是一款高度通用且参数高效的图像创建框架,专为扩散变换器模型如FLUX.1设计,以实现对图像生产过程的高度控制。该框架具备主题导向和空间操控功能,比如边缘引导及绘图产生,并仅需在基本模型上增加0.1%的额外参数量即可达成。OminiControl能够将提供的主体素材无缝整合进新生成的画面中,在保证图片高质量的同时保持主题的一致性。此外,它还配备了一个包含超过20万张图像的Subjects200K数据集,用以支持关于主题一致性生产的科研工作。

OminiControl

OminiControl的核心特性

  • 主题导向操控依据用户给出的主图与文字说明创作一幅新图,在维持主要对象特性的情况下,依照文字内容调整其环境或情境。
  • 空间排列调控该框架适用于诸如边缘指导和绘图创作之类的需精准空间定位的图像创造工作。
  • 多种模式间的注意互动通过整合条件图片、噪点图片及文本标识,OminiControl达成了一种直截了当的多模式注意互动机制,从而优化了信息交流并提升了控制指令传递的速度与效果。
  • 效能指标相比于其他技术,OminiControl通过增加极少的比例(仅为0.1%)的额外参数来达成高效且基于图像的控制效果。
  • 适应性和一致性:设计一种能够兼顾处理空间一致性和非一致性控制任务的一体化框架,以提升系统适应性。

OminiControl的核心技术机制

  • 复用参数方案利用现有的VAE编码器对条件图像进行处理,将其转换到与噪声图像标签相同潜空间的表示中。
  • 一体化序列规划整合噪声图标的标识、文字的标签及条件图片的标注成单一综合序列,使条件图片能够直接参与到多种模式的注意机制中。
  • 适用于动态位置的嵌入方法在处理条件图像标注时,赋予其位置索引,并保证它能有效地与含有噪音的图像标注互动,这对于实现空间对齐的任务以及非空间对齐的任务都是极其重要的。
  • 条件力度系数添加偏置项以修正注意力权重,并允许在推断时手工调节条件图像的影响力。
  • 多种形态的注意机制��作在DiT中的每一个Transformer模块里,通过运用注意力机制来促进图像与文本条件标签间的互动。

OminiControl项目的网址

  • Git存储库:https://github.com/Yuanshi9815/TotalCommand
  • HuggingFace的模型集合访问此链接以查看Yuanshi开发的OminiControl模型:https://huggingface.co/Yuanshi/OminiControl
  • 关于arXiv上的科技文章该论文的链接为:https://arxiv.org/abs/2411.15098,您可以在此访问其摘要和PDF版本。请注意,由于您提供的链接直接指向了PDF文件,上述链接则导向包含更多信息如摘要、引用等的页面。
  • 网上试用演示版:访问此链接以查看由Yuanshi创建的OminiControl空间 – https://huggingface.co/spaces/Yuanshi/OminiControl

OminiControl的使用情境

  • 创意艺术与视觉规划创作者与设计师依照独特的风格或主题来创造视觉作品,或是把已有的设计成分整合进他们的新作品之中。
  • 电子游戏创作游戏设计师迅速创作出游戏场景、人物及物件的构思图像,或者依据玩家偏好个性化制作游戏中各类元素。
  • 影视与休闲产业在影片创作过程中,设计和调整画面环境,例如把具体的物件或是人物嵌入至各种不同的背景下。
  • 市场推广与品牌宣传市场营销专家创建引人注目的广告图片,巧妙地将商品嵌入多种情境之中,从而提升广告的魅力。
  • 虚拟实境(VR)与扩增实境(AR)在使用VR和AR技术的应用程序里,创造出身临其境的虚拟场景与物件,以增强用户的感受体验。
© 版权声明

相关文章