合肥工业大学与科大讯飞联合团队提出 ProSafePrune 框架,通过低秩参数修剪精准移除大语言模型内部的过度有害编码,在不损害安全防御的前提下大幅降低过度拒绝率并轻微提升通用任务性能。
📝 详细摘要
本文介绍了被 ICLR 2026 录用的 ProSafePrune 框架,旨在解决大语言模型安全对齐中的过度拒绝问题。研究团队通过探针实验发现,过度拒绝的本质是模型对伪有害指令的过度有害编码。ProSafePrune 采用三大核心设计:通过 SVD 从安全、有害、伪有害三类指令中提取特征子空间;设计重叠算子精准定位与有害子空间重叠但与安全子空间无关的过度有害成分;在模型最具判别力的中间层进行针对性修剪。实验在 LLaMA-2/3、Qwen2.5/3 等多个系列模型上验证,LLaMA-2-7B 的合规率从 11.0% 提升至 73.0%,远超现有 SOTA 方法,同时安全防御能力几乎无损,通用任务性能(MMLU、GSM8K 等)有轻微提升。该方法无需额外训练和推理开销,部署友好且泛化性强。
💡 主要观点
- 过度拒绝的本质是模型对伪有害指令的过度有害编码。 探针实验揭示,伪有害指令在模型深层会因词汇相似性呈现强有害信号,导致模型误判拒绝,这种认知偏差是过度拒绝和对齐税的根源。
💬 文章金句
- 过度拒绝本质上是模型在特征层面的认知偏差:LLM 的隐藏状态会自然编码输入的安全属性,但伪有害指令会同时投影到有害子空间和无害子空间。
- ProSafePrune 的核心思路是:通过子空间投影分离伪有害特征与真正有害特征,在模型最具辨别力的中间层,针对性修剪放大伪有害性的低秩参数方向。
- 修剪仅移除「过度有害」成分,不会过度损害模型对真正恶意指令的拒绝能力。
- 通过子空间投影与低秩修剪的结合,该方法实现了「安全防御不降级、过度拒绝大缓解、通用性能小提升」的三重目标。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2991
标签: 大语言模型, 安全对齐, 过度拒绝, 参数修剪, ICLR 2026