CVPR 2026 | 中科院、港中文等提出 HiFi-Inpaint：无损还原物体细节，重塑 Inpainting 生成范式！

📌 一句话摘要

中科院与港中文团队提出 HiFi-Inpaint 模型，通过显式高频特征引导机制解决电商场景「人+商品」图像生成中的细节丢失难题，已被 CVPR 2026 接收。

📝 详细摘要

本文介绍了一个针对电商场景的高保真图像修复模型 HiFi-Inpaint。现有扩散模型在生成「人+商品」图像时常出现品牌 Logo 扭曲、文字乱码、纹理丢失等问题。研究团队创新性地引入高频特征提取机制，将其直接注入网络结构和损失函数。该模型基于 FLUX.1-Dev 架构，提出了共享增强注意力（SEA）模块和细节感知损失（DAL），并构建了包含 4 万样本的 HP-Image-40K 数据集。在多项自动评估指标上达到 SOTA 表现，能在复杂场景下保持商品细节的高保真还原。

💡 主要观点

- 显式高频特征引导机制是解决细节丢失的关键 传统隐空间 MSE 损失无法精确约束高频细节，HiFi-Inpaint 通过傅里叶变换提取高频图，直接注入网络结构和损失函数，为模型提供精准的像素级锚点。

SEA 模块实现了高频特征的自适应注入 共享增强注意力模块通过可学习权重因子，将商品图像的高频特征平滑注入重绘区域，避免了固定权重导致的特征冲突和视觉伪影。

DAL 损失提供了高频像素级监督 细节感知损失采用特定频域滤波方法，精准提取商品上的文字、Logo 和纹理边缘，避免了传统 Canny 边缘检测引入的背景噪声。

自动化数据合成流水线突破了数据瓶颈 通过 FLUX.1-Dev 生成双联图、边缘检测分割、YOLOv8 与 CLIP 语义过滤、InternVL 文本重合度过滤，构建了高质量的 HP-Image-40K 数据集。

💬 文章金句

- 既然隐空间容易丢失高频信息，那就显式地将「高频特征」提取出来，直接注入到网络结构和损失函数中！

采用固定的高频权重往往会导致特征冲突，在重绘区域产生明显的视觉伪影；而 SEA 模块巧妙地引入了可学习的权重因子，使高频细节的注入更加平滑、自适应。
传统 Canny 边缘检测会无差别地提取所有轮廓，引入大量无用的背景杂乱信息；而 HiFi-Inpaint 采用的特定频域滤波方法能够精准高亮商品上的关键文字、Logo 与精细纹理。
在生成模型全面走向高保真度要求的今天，单纯依赖网络「自己领悟」隐空间特征在某些任务中是不够的。
Data-Centric AI 依然奏效：利用大模型进行自动化数据合成与多重严格过滤，并进行自蒸馏学习，是突破领域数据匮乏的高效途径。

📊 文章信息

AI 评分：87

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2429

标签： HiFi-Inpaint, 图像修复, CVPR 2026, 扩散模型, 高频特征

阅读完整文章

CVPR 2026 | 中科院、港中文等提出 HiFi-Inpaint：无损还原物体细节，重塑 Inpainting 生成范式！

🤖 問 AI