← 回總覽

Transformer 可以改装成 Mamba 了:苹果把推理成本直接打成线性

📅 2026-04-22 11:30 机器之心 人工智能 2 分鐘 1538 字 評分: 88
Transformer Mamba 模型蒸馏 线性注意力 苹果
📌 一句话摘要 苹果提出一种两阶段蒸馏方法,将 Transformer 模型转换为 Mamba 架构,在仅使用 2.7% 训练数据的情况下,使 1B 参数模型的困惑度从 14.89 恢复至 14.11,逼近教师模型的 13.86,实现了推理成本从平方级到线性的转变。 📝 详细摘要 本文介绍了苹果公司最新发表的一篇论文,提出了一种将 Transformer 模型转换为 Mamba 架构的新型跨架构蒸馏方法。核心挑战在于 Transformer 的 Softmax Attention 计算复杂度随序列长度平方增长,而 Mamba 等状态空间模型虽然具有线性复杂度,但性能通常不及 Transfo

📌 一句话摘要

苹果提出一种两阶段蒸馏方法,将 Transformer 模型转换为 Mamba 架构,在仅使用 2.7% 训练数据的情况下,使 1B 参数模型的困惑度从 14.89 恢复至 14.11,逼近教师模型的 13.86,实现了推理成本从平方级到线性的转变。

📝 详细摘要

本文介绍了苹果公司最新发表的一篇论文,提出了一种将 Transformer 模型转换为 Mamba 架构的新型跨架构蒸馏方法。核心挑战在于 Transformer 的 Softmax Attention 计算复杂度随序列长度平方增长,而 Mamba 等状态空间模型虽然具有线性复杂度,但性能通常不及 Transformer。苹果的解决方案是两阶段蒸馏:第一阶段将原始的 Softmax Attention 替换为一种通过小型神经网络学习的线性注意力(Hedgehog),并通过余弦相似度蒸馏对齐输出;第二阶段将线性注意力嵌入 Mamba 结构,通过参数映射和结构对齐实现平滑过渡,最后通过微调恢复模型能力。实验表明,在仅使用教师模型 2.7% 训练数据(10B token)的情况下,1B 参数的 HedgeMamba 模型在困惑度上达到 14.11,接近教师模型 Pythia 的 13.86,并在 Arc、PIQA、BoolQ 等多个下游任务上全面超过传统蒸馏基线。消融实验进一步揭示了门控机制的关键作用、两阶段数据分配的最优策略以及该方法的可规模化特性。这项工作为将现有大量 Transformer 模型低成本转换为高效架构提供了新的工程可能性。

💡 主要观点

- 苹果提出两阶段蒸馏方法,将 Transformer 转换为 Mamba 架构。 第一阶段将 Softmax Attention 替换为学习型线性注意力(Hedgehog),通过余弦相似度蒸馏对齐;第二阶段将线性注意力嵌入 Mamba 结构,通过参数映射实现结构对齐,避免直接蒸馏的性能崩塌。

仅用 2.7% 训练数据即可恢复接近教师模型的性能。 在 1B 参数规模下,HedgeMamba 的困惑度达到 14.11,逼近教师模型 Pythia 的 13.86,显著优于传统蒸馏基线的 14.89,证明该方法高效且可规模化。
门控机制是 Mamba 性能恢复的关键因素。 消融实验表明,简单堆叠模块效果有限,门控机制让模型学会选择性记忆,是能力迁移的核心。两阶段数据分配的最优策略是轻第一阶段、重第二阶段。

💬 文章金句

- 把又贵又强的 Transformer,改造成又便宜又差不多强的 Mamba。而且,性能基本没怎么掉。

  • 过去大家默认一个前提:只要你把 Transformer 换成另一种架构,性能就会明显掉一截。但这篇论文给出的答案是,这个损失可以被大幅追回来。
  • 过去几年积累的大量 Transformer 模型,并不需要全部推倒重来,而是有机会通过一套流程,被「转制」为更高效的形态。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:10 分钟

字数:2408

标签: Transformer, Mamba, 模型蒸馏, 线性注意力, 苹果

阅读完整文章

查看原文 → 發佈: 2026-04-22 11:30:00 收錄: 2026-04-22 18:00:51

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。