谷歌Gemini 2.5 Flash AI修图功能升级，性能领先GPT-4

277 0 0

8月27日，科技媒体The Decoder发布博文，介绍了谷歌DeepMind最新推出的Gemini 2.5 Flash图像编辑模型。该模型在Gemini应用中实现了显著突破：用户可以根据文字指令，在保持人物与动物外貌一致的前提下，进一步提升图片修改的精确度。

据博文介绍，相较于之前的原生图像生成工具，Gemini 2.5 Flash在根据文本进行图像编辑时展现出更高的准确率。在某些任务中，其表现甚至超越了ChatGPT所使用的GPT-4o模型，展现出更强大的复杂文字指令处理能力。

该模型的核心亮点在于其“角色一致性”功能。即使在生成的多张图像中，人物姿势、背景或光线条件发生变化，也能确保同一人、动物或物体的外观特征保持一致。这一特性对制作系列照片、产品多角度展示尤为有用，可为品牌素材和产品目录提供高效的批量制作解决方案。

Gemini 2.5 Flash支持精准的局部文字编辑，用户无需手动圈选即可完成背景虚化、瑕疵去除、颜色添加或物体移除等操作，极大提升了图像编辑效率。

此外，该模型还支持一次融合最多三张图像的功能。例如，可以将产品照片与室内场景照片结合生成逼真画面。同时具备“风格迁移”能力，可将一种纹理、颜色或图案应用到另一物体上，同时完整保留其形状和细节信息。基于“现实推理”的功能还能模拟简单因果关系，如生成气球飞向仙人掌及其后续结果的画面。

目前，Gemini 2.5 Flash已在Gemini应用中正式上线。用户需将模型切换至“Flash”模式后方可使用图像编辑功能。值得注意的是，所有生成的图片均带有可见水印和不可见的SynthID数字水印。

开发者可通过Gemini API、Google AI Studio与Vertex AI平台进行试用，具体费用为每百万输出token 30美元，单张图像的处理成本约为0.039美元。

文章版权归作者所有，未经允许请勿转载。

ainav

183 0

ainav

221 0

ainav

167 0

ainav

316 0

ainav

223 0

ainav

137 0