谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

AI资讯2周前发布 ainav
18 0

8月27日,科技媒体The Decoder发布博文,介绍了谷歌DeepMind最新推出的Gemini 2.5 Flash图像编辑模型。该模型在Gemini应用中实现了显著突破:用户可以根据文字指令,在保持人物与动物外貌一致的前提下,进一步提升图片修改的精确度。

据博文介绍,相较于之前的原生图像生成工具,Gemini 2.5 Flash在根据文本进行图像编辑时展现出更高的准确率。在某些任务中,其表现甚至超越了ChatGPT所使用的GPT-4o模型,展现出更强大的复杂文字指令处理能力。

该模型的核心亮点在于其“角色一致性”功能。即使在生成的多张图像中,人物姿势、背景或光线条件发生变化,也能确保同一人、动物或物体的外观特征保持一致。这一特性对制作系列照片、产品多角度展示尤为有用,可为品牌素材和产品目录提供高效的批量制作解决方案。

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

Gemini 2.5 Flash支持精准的局部文字编辑,用户无需手动圈选即可完成背景虚化、瑕疵去除、颜色添加或物体移除等操作,极大提升了图像编辑效率。

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

此外,该模型还支持一次融合最多三张图像的功能。例如,可以将产品照片与室内场景照片结合生成逼真画面。同时具备“风格迁移”能力,可将一种纹理、颜色或图案应用到另一物体上,同时完整保留其形状和细节信息。基于“现实推理”的功能还能模拟简单因果关系,如生成气球飞向仙人掌及其后续结果的画面。

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

目前,Gemini 2.5 Flash已在Gemini应用中正式上线。用户需将模型切换至“Flash”模式后方可使用图像编辑功能。值得注意的是,所有生成的图片均带有可见水印和不可见的SynthID数字水印。

谷歌Gemini 2.5 Flash AI修图功能升级,性能领先GPT-4

开发者可通过Gemini API、Google AI Studio与Vertex AI平台进行试用,具体费用为每百万输出token 30美元,单张图像的处理成本约为0.039美元。

© 版权声明

相关文章