据IT之家8月5日报道,阿里通义千问团队正式发布了开源项目Qwen-Image,这一基于MMDiT架构的20B参数模型代表了通义千问系列在图像生成领域的全新突破。作为首个专注于复杂文本渲染与精确图像编辑的基础模型,Qwen-Image展现出卓越的技术性能和应用潜力。
Qwen-Image的核心优势体现在以下几个方面:
-
强大的文本渲染能力:该模型在处理复杂文本布局、段落生成和细节呈现方面表现优异,尤其在多语言支持上实现了突破。无论是英文还是中文内容,均能确保高保真度的输出效果。
-
统一的编辑能力:通过创新性的多任务学习框架,Qwen-Image能够在图像编辑过程中保持高度一致性,显著提升了操作的稳定性和可靠性。
-
领先的跨模态性能:在GenEval、DPG等权威基准测试中,Qwen-Image均达到了最优水平(SOTA),展现出卓越的生成与编辑能力。
为全面验证模型能力,通义千问团队进行了系统性评估。评估涵盖多个维度:包括通用图像生成测试(GenEval、OneIG-Bench)、专业编辑评测(GEdit等),以及专门针对文本渲染的LongText-Bench等。
测试结果显示,Qwen-Image在中文文本处理方面表现尤为突出。与现有先进模型相比,在复杂文本渲染任务中展现出显著优势,尤其是在书法字体识别和多行布局优化等方面实现了重大突破。
为了直观展示Qwen-Image的功能,IT之家提供了多个创作示例:
画面展现的是宫崎骏风格的古街场景。阳光下,一位身着青衫、手持”阿里云”卡片的侠客站在街道中央,两个孩童好奇围观。左侧店铺挂着”云存储”标识,陈列着发光服务器;右侧则有”云计算”和”云模型”店铺,分别展示互动界面和特色装饰。
画面呈现一副书法对联,内容为:”义本生知人机同道善思新”与”通云赋智乾坤启数高志远”,横批”智启通义”。背景是古典建筑风格的厅堂,悬挂着描绘岳阳楼的中国画。
一位身着印有”QWEN”标志的美女正在微笑,背景是手写风格的英文与中文双语介绍:”Meet Qwen-Image — a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解 Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑”。
在视觉艺术创作方面,Qwen-Image支持多样化风格输出。从超现实主义场景到印象派绘画,从动漫二次元到极简设计,模型能够精准理解并实现各类创意需求。
作为图像编辑领域的革新工具,Qwen-Image提供全面的功能支持:包括风格迁移、对象增删、细节优化、文字修改以及人物动作调整等。这些功能使专业级的图像处理变得触手可及。
如需获取Qwen-Image的详细信息及使用指南,可参考以下资源地址:
-
ModelScope平台:https://modelscope.cn/models/Qwen/Qwen-Image
-
Hugging Face社区:https://huggingface.co/Qwen/Qwen-Image
-
官方代码仓库:https://github.com/…
-
在线文档:https://qwen-image.readthedocs.io
如需进一步了解Qwen-Image的功能与应用,可访问上述官方链接获取详细信息。