阿里通义发布的真实感强的个性化文字转图片生成系统 — AnyStory

AI工具2个月前发布 ainav
116 0

AnyStory指的是什么

AnyStory是由阿里巴巴通义实验室开发的一种创新性文本到图像转换框架,专注于单个或多个对象的高度真实感个性化图像创建。该系统采用“编码-路由”策略来处理对象个性化的问题。在编码过程中,AnyStory利用高性能的ReferenceNet与CLIP视觉模型共同工作,以高精度捕获并表示主体特征及其丰富的细节和语义信息。ReferenceNet支持高质量输入,并将其特征空间与去噪U-Net对齐,为生成图像提供详尽的细节基础;而CLIP视觉编码器则提取对象的基本概念属性,确保所生成的图像能准确反映文本描述的内容。

进入路由阶段时,AnyStory采用一种解耦合的设计方法来感知和预测每个主体在潜在空间中的具体位置,并引导这些条件的有效应用。这种机制有效地防止了多主体情况下容易出现的角色混淆问题,从而保证每一个对象都能在其最终呈现于生成图像中保持各自的独特性和细节特征不变。

AnyStory的核心特性

  • 高度精确的单一对象定制化:AnyStory能够创建出高度逼真的图像,这些图像富含细腻的细节和深刻的语义内容,并且严格依据文本说明进行精准呈现。
© 版权声明

相关文章