ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

📌 一句话摘要

合肥工业大学与科大讯飞联合团队提出 ProSafePrune 框架，通过低秩参数修剪精准移除大语言模型内部的过度有害编码，在不损害安全防御的前提下大幅降低过度拒绝率并轻微提升通用任务性能。

📝 详细摘要

本文介绍了被 ICLR 2026 录用的 ProSafePrune 框架，旨在解决大语言模型安全对齐中的过度拒绝问题。研究团队通过探针实验发现，过度拒绝的本质是模型对伪有害指令的过度有害编码。ProSafePrune 采用三大核心设计：通过 SVD 从安全、有害、伪有害三类指令中提取特征子空间；设计重叠算子精准定位与有害子空间重叠但与安全子空间无关的过度有害成分；在模型最具判别力的中间层进行针对性修剪。实验在 LLaMA-2/3、Qwen2.5/3 等多个系列模型上验证，LLaMA-2-7B 的合规率从 11.0% 提升至 73.0%，远超现有 SOTA 方法，同时安全防御能力几乎无损，通用任务性能（MMLU、GSM8K 等）有轻微提升。该方法无需额外训练和推理开销，部署友好且泛化性强。

💡 主要观点

- 过度拒绝的本质是模型对伪有害指令的过度有害编码。 探针实验揭示，伪有害指令在模型深层会因词汇相似性呈现强有害信号，导致模型误判拒绝，这种认知偏差是过度拒绝和对齐税的根源。

ProSafePrune 通过子空间投影与低秩修剪精准移除过度有害成分。 利用 SVD 分离安全、有害、伪有害特征子空间，通过重叠算子定位与有害子空间重叠但与安全子空间无关的参数方向，在中间层进行针对性修剪。

该方法实现了安全防御不降级、过度拒绝大缓解、通用性能小提升的三重目标。 在多个模型和基准上验证，LLaMA-2-7B 合规率从 11.0% 提升至 73.0%，安全分数几乎不变，MMLU 等通用任务得分有 2-4 个百分点的提升。

ProSafePrune 部署友好，无推理开销且泛化性强。 修剪后生成独立模型，无需推理时干预，在 70B 参数模型上仍有效，推理速度显著快于 Self-CD、SCAN 等现有方法。

💬 文章金句

- 过度拒绝本质上是模型在特征层面的认知偏差：LLM 的隐藏状态会自然编码输入的安全属性，但伪有害指令会同时投影到有害子空间和无害子空间。

ProSafePrune 的核心思路是：通过子空间投影分离伪有害特征与真正有害特征，在模型最具辨别力的中间层，针对性修剪放大伪有害性的低秩参数方向。
修剪仅移除「过度有害」成分，不会过度损害模型对真正恶意指令的拒绝能力。
通过子空间投影与低秩修剪的结合，该方法实现了「安全防御不降级、过度拒绝大缓解、通用性能小提升」的三重目标。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2991

标签：大语言模型, 安全对齐, 过度拒绝, 参数修剪, ICLR 2026

阅读完整文章

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

🤖 問 AI