Qwen-Image-Bench：56 个创作级考点，定义生图评测新标准！

📌 一句话摘要

通义实验室推出 Qwen-Image-Bench，一套由专业艺术家团队设计的 56 个细粒度创作考点文生图评测基准，并配套开源自动化评估模型 Q-Judger，旨在填补基础生成与专业创作之间的评测鸿沟。

📝 详细摘要

文章介绍了通义实验室最新发布的文生图评测基准 Qwen-Image-Bench。该基准由专业影像视觉与美学设计艺术家团队参与开发，旨在解决现有 T2I 评测仅关注基础语义对齐和图像质量，而忽略真实创作场景中所需的审美直觉、世界知识和逻辑推理能力的问题。Qwen-Image-Bench 将创作能力解构为 5 大核心能力支柱与 17 大典型创作场景，并细化为 56 项可量化的评估维度，覆盖影像叙事、品牌设计、游戏美术、漫画创作等高频真实场景。基准包含 1000 条中英文双语分层 Prompt，每条精准覆盖 4+ 三级维度考点。同时，文章介绍了配套开源的自动化评估模型 Q-Judger，其评估结果与资深人类艺术家的专业评估具有显著相关性（Spearman 0.92）。文章通过多个实战案例对比展示了不同模型在时尚造型、艺术风格、产品设计、游戏 UI 等维度上的能力差异，并指出当前 T2I 模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是决定模型能否跻身第一梯队的分水岭。

💡 主要观点

- 现有 T2I 评测标准无法衡量模型的真实创作能力。 当前评测多聚焦于基础语义遵循和图像质量，忽略了专业创作场景中所需的审美直觉、世界知识和逻辑推理能力，导致高分模型在实际高阶创作中表现不佳。

Qwen-Image-Bench 将创作能力解构为 56 个细粒度考点。 由专业艺术家团队设计，覆盖影像叙事、品牌设计、游戏美术等 17 大创作场景，通过 1000 条分层 Prompt 实现多维度、可量化的评估，旨在甄别不同模型的优势与短板。

配套开源自动化评估模型 Q-Judger 实现了高效评测。 Q-Judger 支持从图像质量、美学、图文一致性等 56 个维度进行细粒度评分，其评估结果与人类专家高度相关（Spearman 0.92），为模型优化提供了可量化的闭环反馈。

💬 文章金句

- 当 AI 从「会生图」进化到能替代专业摄影、甚至深度参与艺术创作时，我们该如何评测一个模型的「真实创作能力」？

因为「高分」不等于「好用」。
「画得对」和「画得美」只是起点，「懂创作」才是终局。
顶尖模型需要理解人类创作需求，并调动自身知识与逻辑推理能力。这背后，是语言理解、知识整合与模型审美、创意执行的深度协同。

📊 文章信息

AI 初评：90

来源：通义实验室

作者：通义实验室

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2550

标签： Qwen-Image-Bench, 文生图评测, T2I, 多模态模型, Q-Judger

阅读完整文章

Qwen-Image-Bench：56 个创作级考点，定义生图评测新标准！

🤖 問 AI