把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

📌 一句话摘要

面壁智能联合 OpenBMB 开源了基于华为昇腾平台训练的三值大模型 BitCPM-CANN，模型权重仅需约 200MB 内存，在 0.5B 到 8B 四个尺寸上仅用 10% 的尺寸保留了 95% 以上的能力。

📝 详细摘要

本文详细介绍了面壁智能在端侧开源周发布的三值大模型 BitCPM-CANN。该模型是首款基于国产算力平台（华为昇腾）训练的三值大模型，其参数权重仅保留 -1、0、1 三个状态，占用 1.58 位比特，相比常规 FP16 存储减少了约 90% 的尺寸。模型提供了 0.5B、1B、3B、8B 四个尺寸，全系开源。评测数据显示，1B 到 8B 档位的能力保留率均在 95% 以上，其中 3B 档位最高达 97.2%，数学和代码任务也稳在全精度上限附近。文章深入解释了量化感知训练（QAT）的技术原理，对比了后量化（PTQ）与 QAT 两种路线，并强调了面壁团队在脱离 CUDA 生态、将模型规模推到 8B、以及沉淀可插拔基础设施方面的技术突破。文章指出，该模型在推理时仅需原来 1/6 的显存，0.5B 模型实际运行约需 200MB 内存，具备在手表等端侧设备上运行的可能性。

💡 主要观点

- BitCPM-CANN 是首款基于华为昇腾平台训练的三值大模型，实现了国产算力生态的突破。 该模型完全脱离 CUDA 生态，在华为昇腾上原生跑通从量化算子到训练算法的全流程，证明了纯血昇腾也能训出前沿的极低比特大模型。

三值量化将模型权重压缩至仅 1.58 位，相比 FP16 减少约 90% 的尺寸。 模型参数仅保留 -1、0、1 三个状态，通过量化感知训练（QAT）从训练第一天起就施加三值约束，使得模型在极低精度下仍能保持高性能。

模型在 1B 到 8B 尺寸上保留了 95% 以上的全精度能力，0.5B 模型仅需约 200MB 内存。 评测显示 3B 档位能力保留率最高达 97.2%，数学和代码任务表现稳定。0.5B 模型实际运行内存约 200MB，具备在手表等端侧设备上部署的潜力。

面壁团队在 Megatron-LM 和华为 MindSpeed 上嵌入了可插拔的量化并行线性层，沉淀为基础设施。 量化训练和全精度训练共用同一套检查点和通信框架，使 32K 长序列训练也能跑通，为后续低比特训练提供了最佳实践参考。

💬 文章金句

- 纯血国产，在华为昇腾上完成训练。

只用 10% 的尺寸，保留了 95% 的能力。
这是首款【基于国产算力平台训练】的【三值大模型】，并开源。
脱离 CUDA 体系，用纯血昇腾，一样能训模型。
0.5B 的模型，小天才还真能跑。

📊 文章信息

AI 初评：87

来源：赛博禅心

作者：赛博禅心

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2052

标签：三值大模型, BitCPM-CANN, 面壁智能, 华为昇腾, 量化感知训练

阅读完整文章

把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

🤖 問 AI