谷歌 DeepMind 推出全新 Gemini 2.5 Flash 图像编辑模型,该模型可根据文字指令,在保持人物与动物外观一致的情况下,提高图像修改精度。
与此前的图像生成工具相比,Gemini 2.5 Flash 在根据文字进行图像修改时具有更高的准确率,在多项任务中优于 GPT-4o。该模型能够更好地基于复杂文字描述进行图像编辑。
新模型具备“角色一致性”功能,可在生成多张图像时保持同一人物、动物或物体的外观一致,即使姿势、背景或光线发生变化。该功能适用于品牌素材与产品目录的批量制作。
Gemini 2.5 Flash 支持精准的局部文字编辑,用户无需手动圈选区域,即可完成背景虚化、瑕疵去除、颜色添加或物体移除等操作。
该模型可融合最多三张图像,例如将产品照片与室内场景结合生成逼真图像。它还支持“风格迁移”,将一种纹理、颜色或图案应用到另一物体上,同时保持形状与细节不变。基于“现实推理”的功能可模拟简单因果关系,如生成气球飞向仙人掌及其后续结果画面。
Gemini 2.5 Flash 已在 Gemini 应用中上线,用户需将模型切换至“Flash”以使用图像编辑功能,生成图像附有可见水印及不可见的 SynthID 数字水印。
开发者可通过 Gemini API、Google AI Studio 与 Vertex AI 试用该模型,费用为每百万输出 token 30 美元,单张图像生成成本约为 0.039 美元。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。