ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

📌 一句话摘要

ACL 2026 综述论文系统梳理了大模型内生可解释性的五类设计范式，推动可解释性研究从「事后解释黑箱」转向「设计玻璃箱」的底层范式变革。

📝 详细摘要

本文是对一篇被 ACL 2026 接收的综述论文的解读。该论文系统梳理了大语言模型内生可解释性（Intrinsic Interpretability）的前沿进展。文章指出，传统的事后解释（post-hoc）方法存在根本的忠实性差距，而内生可解释性则追求在模型结构、训练目标和信息流路径中直接嵌入可解释性，使「解释」成为模型本身的一部分。论文将现有工作概括为五类核心设计范式：功能透明性、概念对齐、表征可分解性、显式模块化和潜在稀疏性诱导。文章强调，这五类范式并非互斥，而是五种设计原则，共同指向一种新的模型设计观：不是在模型训练完成后追问「它为什么这么做」，而是在设计时就规定「它应该以什么样的方式思考」。文章最后总结了该方向面临的关键挑战，包括评估标准不统一、可解释性与性能的取舍、以及向大规模 LLM 的稳健扩展等。

💡 主要观点

- 内生可解释性追求将可解释性嵌入模型结构本身，而非事后分析。 与事后解释（post-hoc）不同，内生可解释性在模型设计阶段就将可解释性作为核心目标，使模型的计算路径和中间表示天然具有可读性，从根本上解决解释与真实计算之间的忠实性差距。

论文将现有方法归纳为五类核心设计范式。 这五类范式包括功能透明性、概念对齐、表征可分解性、显式模块化和潜在稀疏性诱导，它们从不同层面（计算过程、概念空间、表示组织、架构模块、激活路径）实现内生可解释性。

内生可解释性代表了大模型可解释性研究的范式转向。 该方向推动研究视角从「观察模型」走向「设计模型」，从在外部研究黑箱，转向在建造模型时就使其天然更容易被理解、审计和控制。

该方向仍面临评估标准不统一、性能取舍和可扩展性等关键挑战。 如何定义「内生可解释」、如何在保持高性能的同时实现透明性、以及如何将方法稳健扩展到大规模 LLM，仍是开放问题。

💬 文章金句

- 我们能不能把黑箱直接改造成更接近「玻璃箱」的系统？

很多「不可解释」问题，本质上来自过度稠密和高度叠加；如果模型被迫更有选择地激活参数和通路，它的内部功能分工就更容易显现出来。
内生可解释性并不是某一个单点技巧，而更像一种新的模型设计观：不是在模型训练完成后再问「它为什么这么做」，而是在设计模型时就提前规定「它应该以什么样的方式思考」。
大模型可解释性研究正在从「观察模型」走向「设计模型」。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3390

标签：大语言模型, 可解释性, 内生可解释性, ACL 2026, 综述论文

阅读完整文章

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

🤖 問 AI