← 回總覽

CVPR 2026 | 旋转语义魔方:SafeRoPE 保障新一代文生图安全

📅 2026-05-14 17:36 PaperWeekly 人工智能 2 分鐘 1616 字 評分: 87
SafeRoPE 文生图安全 MMDiT FLUX 旋转位置编码
📌 一句话摘要 复旦 JADE 团队提出 SafeRoPE 技术,通过风险感知的旋转位置编码操作,在 MMDiT 架构文生图模型的语义空间中定向调控风险语义,实现安全性与生成质量的协同优化。 📝 详细摘要 本文介绍了复旦 JADE 团队(张谧教授领衔)针对新一代文生图模型(如 FLUX、Stable Diffusion 3)内容安全问题提出的 SafeRoPE 技术。文章指出,传统安全方法(微调、注意力干预、提示约束)在基于多模态 Transformer(MMDiT)的新架构下效果有限,因为风险生成由多个 token 的复杂交互决定。SafeRoPE 的核心洞察是:风险语义并非全局分布,而

📌 一句话摘要

复旦 JADE 团队提出 SafeRoPE 技术,通过风险感知的旋转位置编码操作,在 MMDiT 架构文生图模型的语义空间中定向调控风险语义,实现安全性与生成质量的协同优化。

📝 详细摘要

本文介绍了复旦 JADE 团队(张谧教授领衔)针对新一代文生图模型(如 FLUX、Stable Diffusion 3)内容安全问题提出的 SafeRoPE 技术。文章指出,传统安全方法(微调、注意力干预、提示约束)在基于多模态 Transformer(MMDiT)的新架构下效果有限,因为风险生成由多个 token 的复杂交互决定。SafeRoPE 的核心洞察是:风险语义并非全局分布,而是集中在少数安全关键注意力头中;同时,RoPE 不仅是一种位置编码,更是一种可调控语义关系的机制。该方法首先通过奇异值分解识别并提取风险子空间,然后仅在关键注意力头的风险子空间内,根据风险分数(LRS)施加自适应旋转,从而将风险语义从正常语义空间中「拉远」,而非直接抑制。实验表明,在 I2P 数据集上,不安全生成比例从 10.3% 降至 7.0%;在 Unsafe-1K 上,从 38.8% 降至 15.4%,同时 CLIP Score 和 FID 指标保持稳定,证明了该方法在安全性与生成质量之间的有效平衡。

💡 主要观点

- 风险语义并非在模型中均匀分布,而是集中在少数安全关键注意力头中。 通过奇异值分解可提取低维风险子空间,仅对关键头进行干预即可实现高效安全控制,非关键头即使施加随机扰动对生成结果影响也有限。

RoPE 不仅是一种位置编码,更是一种可调控语义关系的机制。 RoPE 通过旋转操作改变特征间的相对关系,复杂语义(如风险内容)对旋转更敏感,因此可通过定向旋转选择性破坏风险语义表达。
SafeRoPE 通过风险感知的旋转将风险语义从语义空间中「拉远」,而非直接抑制。 该方法将特征向量分解为风险子空间和安全子空间,仅在风险子空间内根据连续风险分数施加自适应旋转,保持信息量不变,最大程度保留生成质量。
SafeRoPE 在安全性与生成质量之间实现了有效平衡。 在 I2P 和 Unsafe-1K 数据集上显著降低不安全生成比例,同时 CLIP Score 和 FID 指标保持稳定,且具备良好的跨模型和跨风险类型泛化能力。

💬 文章金句

- 在新一代文生图模型中,语义如何'排列',往往比语义'是什么'更重要。

  • SafeRoPE 的核心就是通过风险感知的旋转操作,在 embedding 空间中对其进行结构化调控,从而重排语义关系,削弱高风险组合。
  • SafeRoPE 的核心并非直接抑制风险语义,而是通过结构性调节,将其从语义空间中'拉远'。
  • 安全增强不必以牺牲生成质量为代价。
  • SafeRoPE 代表了一种从结果拦截到语义调控的安全范式转变。

📊 文章信息

AI 初评:87

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3079

标签: SafeRoPE, 文生图安全, MMDiT, FLUX, 旋转位置编码

阅读完整文章

查看原文 → 發佈: 2026-05-14 17:36:00 收錄: 2026-05-15 00:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。