12月26日,小红书与复旦大学共同推出了一项在布局控制生成领域具有里程碑意义的技术——InstanceAssemble,该技术通过创新的“实例拼接注意机制”,实现了从简单到复杂、从稀疏到密集布局的精准图像生成,并被顶级会议NeurIPS 2025收录。

近年来,AI绘画技术发展迅猛。从最初的“文字生成图像”(Text-to-Image),逐步演进到更高级的“布局控制生成”(Layout-to-Image)。这种模式能够根据用户的输入——包括边界框、分割掩码或骨架图等空间约束条件,来生成对应的图像。
在“布局控制生成”技术中,核心难点在于如何让AI精确按照用户指定的位置和内容进行图像生成。这一过程面临着布局对齐不准确、语义信息脱节以及计算资源消耗过高等挑战。
此次发布的InstanceAssemble新技术,是复旦大学与小红书合作的成果,实现了对图像中每个物体的精确控制和定位,标志着AI绘画正式迈入“可精准构图”的新阶段。

InstanceAssemble基于当前主流的扩散变换器架构,创新性地提出了“实例拼接注意机制”。用户只需提供每个物体的位置边界框和内容描述信息,AI就能在对应位置生成符合语义的图像内容。无论是简单场景还是复杂密集的布局,InstanceAssemble都能保持高精度的布局对齐和语义一致性。
更值得关注的是,该技术采用了轻量级适配方案,大幅降低了使用门槛。无需重新训练整个模型,仅通过约7100万个参数(相当于Stable Diffusion3-Medium模型的3.46%额外参数),即可完成对主流模型的适配。而对于Flux.1这样的轻量级模型,这一比例更是降低到了惊人的0.84%。
在实验中,InstanceAssemble技术在一个包含90万个实例的密集布局数据集上展现了卓越性能,显著超越了现有的其他方法。
研究团队还建立了首个“Denselayout”基准测试集,包含5000张图像和90000个实例,并提出了全新的评估指标——“布局定位得分”(Layout Grounding Score, LGS),为技术的准确性和可靠性提供了科学依据。
实验结果表明,InstanceAssemble在各种布局条件下均表现优异。即使在仅使用稀疏布局(≤10个实例)进行训练的情况下,在面对密集布局(≥10个实例)时也能保持稳定的高性能输出。
目前,这项技术已经完全开源,开发者和设计师可以在GitHub上获取代码和预训练模型。这一突破性成果将为设计、广告、内容创作等多个领域提供强有力的技术支持。
附录:相关参考链接
-
小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破
-
InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
-
InstanceAssemble GitHub