阿里巴巴今日正式推出新一代图像生成基础模型Qwen-Image 2.0,在长指令处理、文字渲染精度及模型效率方面实现突破性进展。该模型支持最长1000个token的超长指令输入,分辨率提升至2K级别,同时通过轻量化架构设计将模型体积压缩至前代20B版本的十分之一以下,推理速度显著提升。
技术测试显示,在888个token构成的复杂排版指令下,Qwen-Image 2.0可精准还原字体样式、颜色及布局参数。官方演示案例中,该模型成功生成包含《兰亭集序》全文的毛笔字画卷,文字与山水背景的融合度较前代提升40%,错误字符比例降至5%以下。针对多子图生成场景,模型可一次性输出24格连贯漫画,人物特征保持率达92%,较同类模型提升15个百分点。
在AI盲测平台AI Arena的基准测试中,Qwen-Image 2.0位列文生图第三、图生图第二,与榜首谷歌Nano Banana Pro存在7.8%的性能差距。实测对比显示,在超现实场景生成任务中,该模型对"倒置水晶城市"等复杂描述的还原度达83%,虽略逊于Nano Banana Pro的89%,但较字节Seedream 5.0 Preview的76%具有明显优势。
研发团队透露,新模型采用创新的VAE重构算法,将小尺寸文字的生成清晰度提升3倍。通过将文生图与图像编辑能力整合,模型在"照片题诗"等跨模态任务中展现出独特优势。实测表明,在电商场景的商品图生成任务中,Qwen-Image 2.0可使设计效率提升60%,运营成本降低45%。
该模型已通过阿里云百炼平台开放API邀测,用户可通过Qwen Chat官网免费体验基础功能。研发负责人吴晨飞表示,团队正开发支持PPT、多图海报等复杂信息图生成的新版本,目标将幻觉错误率控制在0.5%以下。分层编辑功能的强化版本预计将于第三季度上线,届时设计师可实现跨模型、跨图层的精细化操作。
行业分析指出,Qwen-Image 2.0的推出标志着图像生成技术从"视觉逼真"向"语义可控"的关键转型。其轻量化设计使模型可部署于移动端设备,结合WPS等国民级应用的生态合作,有望推动AIGC技术在医疗流程图、教育课件等垂直领域的规模化落地。

