复旦 JADE 团队提出 SafeRoPE 技术,通过风险感知的旋转位置编码操作,在 MMDiT 架构文生图模型的语义空间中定向调控风险语义,实现安全性与生成质量的协同优化。
📝 详细摘要
本文介绍了复旦 JADE 团队(张谧教授领衔)针对新一代文生图模型(如 FLUX、Stable Diffusion 3)内容安全问题提出的 SafeRoPE 技术。文章指出,传统安全方法(微调、注意力干预、提示约束)在基于多模态 Transformer(MMDiT)的新架构下效果有限,因为风险生成由多个 token 的复杂交互决定。SafeRoPE 的核心洞察是:风险语义并非全局分布,而是集中在少数安全关键注意力头中;同时,RoPE 不仅是一种位置编码,更是一种可调控语义关系的机制。该方法首先通过奇异值分解识别并提取风险子空间,然后仅在关键注意力头的风险子空间内,根据风险分数(LRS)施加自适应旋转,从而将风险语义从正常语义空间中「拉远」,而非直接抑制。实验表明,在 I2P 数据集上,不安全生成比例从 10.3% 降至 7.0%;在 Unsafe-1K 上,从 38.8% 降至 15.4%,同时 CLIP Score 和 FID 指标保持稳定,证明了该方法在安全性与生成质量之间的有效平衡。
💡 主要观点
- 风险语义并非在模型中均匀分布,而是集中在少数安全关键注意力头中。 通过奇异值分解可提取低维风险子空间,仅对关键头进行干预即可实现高效安全控制,非关键头即使施加随机扰动对生成结果影响也有限。
💬 文章金句
- 在新一代文生图模型中,语义如何'排列',往往比语义'是什么'更重要。
- SafeRoPE 的核心就是通过风险感知的旋转操作,在 embedding 空间中对其进行结构化调控,从而重排语义关系,削弱高风险组合。
- SafeRoPE 的核心并非直接抑制风险语义,而是通过结构性调节,将其从语义空间中'拉远'。
- 安全增强不必以牺牲生成质量为代价。
- SafeRoPE 代表了一种从结果拦截到语义调控的安全范式转变。
📊 文章信息
AI 初评:87
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3079
标签: SafeRoPE, 文生图安全, MMDiT, FLUX, 旋转位置编码