小米开源的图像编辑框架 Lego-Edit

AI工具2个月前发布 ainav
63 0

什么是Lego-Edit

Lego-Edit是由小米公司开源的一款先进的图像编辑框架,它基于多模态大语言模型(MLLM)的强大泛化能力,为用户提供了一种灵活高效的图像编辑解决方案。该框架采用模块化设计的模型工具包,内置多种经过优化训练的专业模型,能够执行包括图像修复、风格转换、物体添加/移除在内的多项复杂操作。

在技术实现上,Lego-Edit采用了独特的三阶段渐进式强化学习策略。首先通过监督微调(SFT)进行基础能力培养;接着针对特定任务开展强化学习(RL),提升专业性;最后利用大规模未标注指令数据进行额外的强化训练,使模型具备处理多样化编辑指令的强大能力。

作为图像编辑领域的重要创新,Lego-Edit展现出显著的技术优势。它不仅能够实现局部细节调整和全局效果优化,还支持多步骤复杂操作,并且通过精确的掩码输入控制编辑区域,为用户提供极高的创作自由度。更值得关注的是,该框架采用了模块化设计思路,无需重新训练整个模型即可轻松整合新的编辑工具,极大地降低了功能扩展的技术门槛。

凭借其卓越的性能表现和灵活易用的特点,Lego-Edit在多个权威评测基准中达到了领先水平(SOTA)。无论是专业设计师还是普通用户,都能通过这一框架实现高质量的图像编辑效果。

小米开源的图像编辑框架 Lego-Edit
© 版权声明

相关文章