ConsiStory指的是什么?
ConsiStory是一项由NVIDIA和特拉维夫大学的研究团队联合开发的技术,它能够在不经过额外训练的情况下将文本转化为图像,并且能够保持原有的风格与主题不变的同时,根据不同的文字指令迅速自然地适应多种场景。该技术的关键在于利用预训练的文本转图像模型在生成过程中共享内部激活状态来确保内容的一致性。通过这种方式,ConsiStory避免了对模型进行任何优化或再训练的需求,极大地简化了创建一致风格图像的过程。
访问ConsiStory的官方网站入口
- 该项目的官方网站地址为:https://consistory-paper.github.io/
- 在Arxiv平台上发布的一篇科研文章中探讨了相关主题,其链接为:https://arxiv.org/abs/2402.03286
- GitHub代码仓库:即将上线
ConsiStory的核心特性
- 不必进行培训利用ConsiStory,无需调整或特别训练任何预先构建的文字转图片(T2I)模型;这意味着使用者能够立即借助现有模型创造连贯的视觉内容,从而显著减少所需的时间和资源消耗。
- 维持同一主题的创作此技术可以创造出一组具有统一主题形象的图片,即使面对不同的文字指引也能维持如人物、生物或物品的一致性。这对要求视觉一致性的情境极为适用,比如制作故事书籍、塑造角色或是构建虚拟财产等领域。
- 跨越帧的稳定性ConsiStory利用内部激活共享与注意力机制来保证所生成的图像能在主题特性上维持一致性,即便面对变化的背景或场景也是如此。
- 构建多元化的结构为提升生成图片的多样性和防止布局过于一致,ConsiStory运用了注意权重随机化及查询特性融合的技术手段。
- 相容性此技术能够与当前的图像编辑软件(例如ControlNet)协同工作,从而支持更为复杂的图像操控功能。
- 迅速创建得益于省略了训练过程,ConsiStory能迅速创建图像,其速度大约是当前最优技术的20倍。
ConsiStory的核心技术机制
- 确定主题方向于每次生成步骤之中,ConsiStory会先确定所产生每一幅图中的核心元素位置。这一过程借助对模型交叉注意力特性进行解析实现,该方法能够有效指出图像内潜在含有主要对象的部分。
- 以主题为导向的共同关注点:ConsiStory拓展了自注意力机制的应用范围,使得一个图像内的查询不仅能聚焦于自身的特征信息,同时也能关注到其他图像内与主题相关联的特性。这种设计让同一主题的不同实例在生成过程中能够互相影响,确保了一致性的维持。为了控制背景和布局的一致性问题,ConsiStory采用了主题掩码的方法来保证仅分享那些与核心主题紧密相关的特征信息。
- 提升布局的多样化程度为维持生成图片的多样特性,ConsiStory实施了两项措施:首先,在非一致性的取样阶段中结合原始特性和新创特性的融合;其次,则通过在共用注意机制时采用随机注意抛弃技术来降低各图间的高度相似性。
- 特性嵌入为提升主题在细节层面的一致性,ConsiStory采用了特征注入技术。借助于基于DIFT特性的跨图片稠密对应网络的构建,该系统实现了在多幅图像间准确匹配与融合特征的目的,从而加强了整体的主题一致性。
- 固定图片与重复利用的主题元素为了提升处理效能,ConsiStory能够挑选特定的生成图片作为“参考图”。在共同关注阶段,仅这些参考图与其它图像进行特征交换。这种方式不但减轻了运算压力,同时也优化了产出效果,并且支持在同一新颖背景下重复利用同一主题。
- 多种主题的一致性创造ConsiStory具备管理含有多种主题图片的能力。只需将各个主题的遮罩进行合并,即可确保在同一张图片内多种主题间的统一协调。
© 版权声明
文章版权归作者所有,未经允许请勿转载。