浙大&腾讯打破图像编辑「规模-质量」魔咒：1000 万数据+统一验证框架，让开源模型追上闭源 SOTA

AI科技评论 2026-03-20 18:12 广东

他们用一套"质检+改题"双系统，造出了AI图像编辑领域的第一套标准化教材。 **!Image 3**

不知你有没有发现，用ChatGPT里的图像编辑挺顺，但换几个开源工具就频频翻车？这不是错觉——顶尖闭源模型（如GPT-Image-1）和开源模型之间的差距，正在被越拉越大。根源在于：开源阵营手里没有两样东西——足够多且足够好的训练素材，以及一套能全面体检模型能力的'诊断系统'。

更麻烦的是，做数据就像走钢丝：纯手工打造的精品数据集，质量过硬但根本攒不够量；全自动流水线倒是能批量生产，但环节一多，前面的小错会一路放大成灾难——比如第一步识别错了物体，后面所有编辑都跟着跑偏。

具体来说，现在的数据生产有三个漏铜：

▪'传话游戏'式误差：一个编辑任务要过N个工具（识别→分割→生成→融合），前面一步歪一点，后面步步歪；

▪'安检'走过场：要么只查'有没有出图'而不管文本指令对不对，要么花大价钱调API改文字描述，却不管图本身质量；

▪'考试范围'太窄：现有测试只考'换颜色'、'加物体'这种基础题，不考'从空中俯瞰这个建筑'这种空间理解题，也不考'将咖啡壶变为煮沸状态'这种需要常识推理的题。而且评分标准还有bug——背景被偷偷改了看不出来，风格一变就扣冤枉分。

!Image 4

图1: UnicEdit-10M 涵盖了跨越基础与复杂编辑的 22 种编辑任务。该数据集采用统一的后置验证阶段，通过过滤失败样本并精炼指令，从而产出高质量的三元组数据。此外，我们还推出了配套的 UnicBench，利用细粒度指标进行全面评估。

针对这个痛点，浙江大学和腾讯联合搞了个大动作：他们不仅造出了1000万组高质量的"图像编辑练习题"（UnicEdit-10M），还配了一套22类难度递进的"全真模拟考卷"（UnicBench）。简单来说，就是给AI图像编辑领域提供了标准化的教材+考试系统。除此之外，他们还配置了一名"严格判官"（Qwen-Verify），对生成的图像编辑数据进行严格的筛选和优化，保证最终得到的"练习题"的答案都是正确且高质量的。

!Image 5

论文标题：UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

论文地址：https://arxiv.org/pdf/2512.02790

代码仓库：https://github.com/WeChatCV/UnicBench

项目主页：https://hongsexiaotanhua.github.io/UnicEdit-10M/

数据集：https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M

Benchmark：https://huggingface.co/datasets/xiaotanhua/UnicBench

!Image 6: 图片 01

核心亮点

大规模高质量数据集 UnicEdit-10M：构建了包含 10M 样本的高质量图像编辑数据集，覆盖 22 种编辑任务，不仅包含基础的属性和对象编辑，还涵盖几何空间变化和基于推理知识的编辑任务，同时，该数据集的图像美学得分也超越其他数据集。

Qwen-Verify 后校验专家模型：训练了一个 7B 规模的双任务专家模型，能够同时进行细粒度的失败检测和指令重写，在计算成本和经济成本远低于 Qwen2.5-VL-72B 的情况下，实现了更优的性能。

UnicBench 综合评估基准：提出了覆盖基础编辑、几何空间变化以及基于推理知识编辑任务的综合基准，引入了非编辑一致性和推理准确性等新颖评估指标，能够全面诊断模型的编辑能力，为未来研究提供了清晰的方向。

!Image 7

图2: UnicEdit-10M 中所有子任务的代表性编辑样例。

!Image 8: 图片 02

UnicEdit-10M数据集构建

UnicEdit-10M 的构建采用了三阶段的高效自动化流水线：

指令生成阶段：使用 Qwen2.5-VL-72B 模型，基于预定义的编辑分类体系，为每张图像生成 3-7 个不同的、符合内容的编辑指令，确保任务分布均衡，无需人工标注。

图像编辑阶段：使用 FLUX.1-Kontext 和 Qwen-Image-Edit 两款领先的开源编辑模型，对每一对〈原始图像，指令〉进行处理，生成编辑后的图像，形成初始的三元组。同时对源图像进行中心裁剪和缩放预处理，并进行质量检查，丢弃需要超过 20% 裁剪的图像，避免内容丢失。

后校验阶段：所有合成的三元组都经过统一的后校验环节，不仅过滤掉失败的样本，还会优化对应的指令，增强其与视觉编辑的语义对齐。

最终生成的 UnicEdit-10M 数据集包含约 10M 个三元组，分为 4 大编辑类型：场景编辑（3.063M 样本）、属性编辑（3.529M 样本）、对象编辑（3.242M 样本）和推理编辑（1.746M 样本），其中 50% 的图像为 1024×1024 的高分辨率图像。

!Image 9

图3: 包含三个阶段的数据构建流水线：(1) 数据准备；(2) 图像编辑；(3) 后校验，用于过滤失败的编辑样本并进行指令重写（Recaption）。

!Image 10: 图片 03

后校验专家模型

在后校验阶段，为了实现更为准确和高效的质量控制，作者训练了7B的双任务后校验专家模型Qwen-Verify，通过使用人类标注的偏好数据进行偏好对齐，实现更为准确的数据筛选。该专家模型能够同时执行如下两个关键任务：：

编辑失败检测：能够细粒度地识别出编辑失败的样本，包括无编辑、幻觉等情况，相比传统的 SSIM 等像素级指标，Qwen-Verify 具备语义理解能力，能够准确识别出语义上有变化但视觉上细微的编辑，同时忽略生成过程中微小的像素级噪声。

编辑指令重写：能够对与编辑结果语义对齐不足的指令进行重写，确保指令与实际的视觉变换精确匹配。

对比实验显示，Qwen-Verify 在正常编辑、无编辑和幻觉检测的准确率上均显著优于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基线模型，在人脸一致性等关键指标上，UnicEdit-10M 的一致性得分达到 0.89，远优于 GPT-Image-Edit-1.5M 的 0.3025，展现出在保持关键主体细节上的卓越能力。

!Image 11

图4: 专家模型后校验样例。其中：Base 表示 Qwen2.5-VL-7B 模型；SFT 表示经过第一阶段指令微调后的基础模型；Ours 表示我们提出的双任务专家模型 Qwen-Verify。

!Image 12: 图片 04

UnicBench：综合编辑能力评测

UnicBench 是一个覆盖基础编辑、几何空间变化以及基于推理知识编辑任务的综合基准，其构建过程采用了 VLM 与人工结合的工作流：首先由 Qwen2.5-VL 生成候选指令，再由人类专家进行审核，移除模糊或语义不一致的提示，并进行重写以匹配特定的编辑任务类别，每个类别包含 50 个测试用例。

为了实现更精准的评估，UnicBench 引入了四个专门的评估指标：

指令遵循度（IF）：通过基于 VLM 的跨模态对齐分数，衡量编辑图像满足指令的程度。

非编辑一致性（NC）：评估非目标区域的保留情况，对编辑区域外的意外变化进行惩罚。

视觉质量（VQ）：基于指令的自然度、连贯性和视觉风格一致性的评估。

推理准确性（RA）：针对基于推理知识的编辑任务，VLM会利用所提供的 _reasoning points_ 列表，针对实际编辑变化进行对比打分，该列表均经过人工进行核验优化。

对主流模型的评估结果显示，闭源模型在整体能力上显著优于开源模型，GPT-Image-1 在英文和中文任务上均取得了最高的综合得分，展现出最优的通用编辑能力。开源模型中，Qwen-Image-Edit 表现最佳，开始缩小与闭源模型的差距。但所有模型在推理准确性（RA）指标上均出现了显著的性能下降，这表明当前模型在执行需要复杂逻辑推理或世界知识的编辑任务时存在普遍的局限性，为未来的研究指明了方向。

!Image 13

图5: 各模型在 UnicBench 子任务上的综合评分，左侧为英文（EN）指令结果，右侧为中文（CN）指令结果。所有结果均由 GPT-4o 进行评估。

!Image 14

表1: 不同模型在 UnicBench 上的综合性能表现。开源模型与闭源模型的结果分别标注，其中最优性能以加粗表示，次优性能以下划线表示。

推荐阅读 ![Image 15](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247732342&idx=2&sn=804ac7a48876fc2b5eb7065c8b474a2e&scene=21#wechat_redirect) ![Image 16](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247732291&idx=1&sn=0e63747ddc961570e65c3b6c6ffb5a67&scene=21#wechat_redirect)

!Image 17: 图片

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。阅读原文跳转微信打开

浙大&腾讯打破图像编辑「规模-质量」魔咒：1000 万数据+统一验证框架，让开源模型追上闭源 SOTA | CVPR 2026

核心亮点

UnicEdit-10M数据集构建

后校验专家模型

UnicBench：综合编辑能力评测

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

🤖 問 AI

浙大&腾讯打破图像编辑「规模-质量」魔咒：1000 万数据+统一验证框架，让开源模型追上闭源 SOTA | CVPR 2026

**核心亮点**

**UnicEdit-10M数据集构建**

**后校验专家模型**

**UnicBench：综合编辑能力评测**

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

🤖 問 AI

核心亮点

UnicEdit-10M数据集构建

后校验专家模型

UnicBench：综合编辑能力评测