AI科技评论 2026-03-20 18:12 广东
他们用一套"质检+改题"双系统,造出了AI图像编辑领域的第一套标准化教材。 **!Image 3**
不知你有没有发现,用ChatGPT里的图像编辑挺顺,但换几个开源工具就频频翻车?这不是错觉——顶尖闭源模型(如GPT-Image-1)和开源模型之间的差距,正在被越拉越大。 根源在于:开源阵营手里没有两样东西——足够多且足够好的训练素材,以及一套能全面体检模型能力的'诊断系统'。
更麻烦的是,做数据就像走钢丝:纯手工打造的精品数据集,质量过硬但根本攒不够量;全自动流水线倒是能批量生产,但环节一多,前面的小错会一路放大成灾难——比如第一步识别错了物体,后面所有编辑都跟着跑偏。
具体来说,现在的数据生产有三个漏铜:
▪'传话游戏'式误差:一个编辑任务要过N个工具(识别→分割→生成→融合),前面一步歪一点,后面步步歪;
▪'安检'走过场:要么只查'有没有出图'而不管文本指令对不对,要么花大价钱调API改文字描述,却不管图本身质量;
▪'考试范围'太窄:现有测试只考'换颜色'、'加物体'这种基础题,不考'从空中俯瞰这个建筑'这种空间理解题,也不考'将咖啡壶变为煮沸状态'这种需要常识推理的题。而且评分标准还有bug——背景被偷偷改了看不出来,风格一变就扣冤枉分。
图1: UnicEdit-10M 涵盖了跨越基础与复杂编辑的 22 种编辑任务。该数据集采用统一的后置验证阶段,通过过滤失败样本并精炼指令,从而产出高质量的三元组数据。此外,我们还推出了配套的 UnicBench,利用细粒度指标进行全面评估。
针对这个痛点,浙江大学和腾讯联合搞了个大动作:他们不仅造出了1000万组高质量的"图像编辑练习题"(UnicEdit-10M),还配了一套22类难度递进的"全真模拟考卷"(UnicBench)。简单来说,就是给AI图像编辑领域提供了标准化的教材+考试系统。除此之外,他们还配置了一名"严格判官"(Qwen-Verify),对生成的图像编辑数据进行严格的筛选和优化,保证最终得到的"练习题"的答案都是正确且高质量的。
论文标题:UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
论文地址:https://arxiv.org/pdf/2512.02790
代码仓库:https://github.com/WeChatCV/UnicBench
项目主页:https://hongsexiaotanhua.github.io/UnicEdit-10M/
数据集:https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M
Benchmark:https://huggingface.co/datasets/xiaotanhua/UnicBench
!Image 6: 图片 01
**核心亮点**
- 大规模高质量数据集 UnicEdit-10M:构建了包含 10M 样本的高质量图像编辑数据集,覆盖 22 种编辑任务,不仅包含基础的属性和对象编辑,还涵盖几何空间变化和基于推理知识的编辑任务,同时,该数据集的图像美学得分也超越其他数据集。
- Qwen-Verify 后校验专家模型:训练了一个 7B 规模的双任务专家模型,能够同时进行细粒度的失败检测和指令重写,在计算成本和经济成本远低于 Qwen2.5-VL-72B 的情况下,实现了更优的性能。
- UnicBench 综合评估基准:提出了覆盖基础编辑、几何空间变化以及基于推理知识编辑任务的综合基准,引入了非编辑一致性和推理准确性等新颖评估指标,能够全面诊断模型的编辑能力,为未来研究提供了清晰的方向。
图2: UnicEdit-10M 中所有子任务的代表性编辑样例。
!Image 8: 图片 02
**UnicEdit-10M数据集构建**
UnicEdit-10M 的构建采用了三阶段的高效自动化流水线:
- 指令生成阶段:使用 Qwen2.5-VL-72B 模型,基于预定义的编辑分类体系,为每张图像生成 3-7 个不同的、符合内容的编辑指令,确保任务分布均衡,无需人工标注。
- 图像编辑阶段:使用 FLUX.1-Kontext 和 Qwen-Image-Edit 两款领先的开源编辑模型,对每一对〈原始图像,指令〉进行处理,生成编辑后的图像,形成初始的三元组。同时对源图像进行中心裁剪和缩放预处理,并进行质量检查,丢弃需要超过 20% 裁剪的图像,避免内容丢失。
- 后校验阶段:所有合成的三元组都经过统一的后校验环节,不仅过滤掉失败的样本,还会优化对应的指令,增强其与视觉编辑的语义对齐。
图3: 包含三个阶段的数据构建流水线:(1) 数据准备;(2) 图像编辑;(3) 后校验,用于过滤失败的编辑样本并进行指令重写(Recaption)。
!Image 10: 图片 03
**后校验专家模型**
在后校验阶段,为了实现更为准确和高效的质量控制,作者训练了7B的双任务后校验专家模型Qwen-Verify,通过使用人类标注的偏好数据进行偏好对齐,实现更为准确的数据筛选。该专家模型能够同时执行如下两个关键任务::
- 编辑失败检测:能够细粒度地识别出编辑失败的样本,包括无编辑、幻觉等情况,相比传统的 SSIM 等像素级指标,Qwen-Verify 具备语义理解能力,能够准确识别出语义上有变化但视觉上细微的编辑,同时忽略生成过程中微小的像素级噪声。
- 编辑指令重写:能够对与编辑结果语义对齐不足的指令进行重写,确保指令与实际的视觉变换精确匹配。
图4: 专家模型后校验样例。其中:Base 表示 Qwen2.5-VL-7B 模型;SFT 表示经过第一阶段指令微调后的基础模型;Ours 表示我们提出的双任务专家模型 Qwen-Verify。
!Image 12: 图片 04
**UnicBench:综合编辑能力评测**
UnicBench 是一个覆盖基础编辑、几何空间变化以及基于推理知识编辑任务的综合基准,其构建过程采用了 VLM 与人工结合的工作流:首先由 Qwen2.5-VL 生成候选指令,再由人类专家进行审核,移除模糊或语义不一致的提示,并进行重写以匹配特定的编辑任务类别,每个类别包含 50 个测试用例。
为了实现更精准的评估,UnicBench 引入了四个专门的评估指标:
- 指令遵循度(IF):通过基于 VLM 的跨模态对齐分数,衡量编辑图像满足指令的程度。
- 非编辑一致性(NC):评估非目标区域的保留情况,对编辑区域外的意外变化进行惩罚。
- 视觉质量(VQ):基于指令的自然度、连贯性和视觉风格一致性的评估。
- 推理准确性(RA):针对基于推理知识的编辑任务,VLM会利用所提供的 _reasoning points_ 列表,针对实际编辑变化进行对比打分,该列表均经过人工进行核验优化。
图5: 各模型在 UnicBench 子任务上的综合评分,左侧为英文(EN)指令结果,右侧为中文(CN)指令结果。所有结果均由 GPT-4o 进行评估。
表1: 不同模型在 UnicBench 上的综合性能表现。开源模型与闭源模型的结果分别标注,其中最优性能以加粗表示,次优性能以下划线表示。
//
推荐阅读  