阿里通义千问发布首个图像生成基础模型Qwen-Image

阿里通义千问团队宣布开源 Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得显著进展。

Qwen-Image 的主要特性包括文本渲染能力、一致性的图像编辑能力以及跨基准性能表现。该模型支持多行布局、段落级文本生成以及细粒度细节呈现,无论英语还是中文均能实现高保真输出。通过增强的多任务训练范式,Qwen-Image 在编辑过程中能保持编辑的一致性。在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA。

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。Qwen-Image 在所有基准测试中均取得最先进的性能。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有最先进模型。

示例内容包括宫崎骏的动漫风格场景,阳光下的古街热闹非凡;典雅庄重的对联悬挂于厅堂之中,房间为安静古典的中式布置;一位穿着“QWEN”标志 T 恤的中国美女手持黑色马克笔微笑面对镜头,并在玻璃板上书写介绍 Qwen-Image 的文字。

除了文本处理,Qwen-Image 在通用图像生成方面支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示。

在图像编辑方面,Qwen-Image 支持风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种操作,使普通用户也能实现专业级的图像编辑。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1