← 回總覽

把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

📅 2026-05-25 11:58 赛博禅心 人工智能 2 分鐘 1524 字 評分: 87
三值大模型 BitCPM-CANN 面壁智能 华为昇腾 量化感知训练
📌 一句话摘要 面壁智能联合 OpenBMB 开源了基于华为昇腾平台训练的三值大模型 BitCPM-CANN,模型权重仅需约 200MB 内存,在 0.5B 到 8B 四个尺寸上仅用 10% 的尺寸保留了 95% 以上的能力。 📝 详细摘要 本文详细介绍了面壁智能在端侧开源周发布的三值大模型 BitCPM-CANN。该模型是首款基于国产算力平台(华为昇腾)训练的三值大模型,其参数权重仅保留 -1、0、1 三个状态,占用 1.58 位比特,相比常规 FP16 存储减少了约 90% 的尺寸。模型提供了 0.5B、1B、3B、8B 四个尺寸,全系开源。评测数据显示,1B 到 8B 档位的能力保留

📌 一句话摘要

面壁智能联合 OpenBMB 开源了基于华为昇腾平台训练的三值大模型 BitCPM-CANN,模型权重仅需约 200MB 内存,在 0.5B 到 8B 四个尺寸上仅用 10% 的尺寸保留了 95% 以上的能力。

📝 详细摘要

本文详细介绍了面壁智能在端侧开源周发布的三值大模型 BitCPM-CANN。该模型是首款基于国产算力平台(华为昇腾)训练的三值大模型,其参数权重仅保留 -1、0、1 三个状态,占用 1.58 位比特,相比常规 FP16 存储减少了约 90% 的尺寸。模型提供了 0.5B、1B、3B、8B 四个尺寸,全系开源。评测数据显示,1B 到 8B 档位的能力保留率均在 95% 以上,其中 3B 档位最高达 97.2%,数学和代码任务也稳在全精度上限附近。文章深入解释了量化感知训练(QAT)的技术原理,对比了后量化(PTQ)与 QAT 两种路线,并强调了面壁团队在脱离 CUDA 生态、将模型规模推到 8B、以及沉淀可插拔基础设施方面的技术突破。文章指出,该模型在推理时仅需原来 1/6 的显存,0.5B 模型实际运行约需 200MB 内存,具备在手表等端侧设备上运行的可能性。

💡 主要观点

- BitCPM-CANN 是首款基于华为昇腾平台训练的三值大模型,实现了国产算力生态的突破。 该模型完全脱离 CUDA 生态,在华为昇腾上原生跑通从量化算子到训练算法的全流程,证明了纯血昇腾也能训出前沿的极低比特大模型。

三值量化将模型权重压缩至仅 1.58 位,相比 FP16 减少约 90% 的尺寸。 模型参数仅保留 -1、0、1 三个状态,通过量化感知训练(QAT)从训练第一天起就施加三值约束,使得模型在极低精度下仍能保持高性能。
模型在 1B 到 8B 尺寸上保留了 95% 以上的全精度能力,0.5B 模型仅需约 200MB 内存。 评测显示 3B 档位能力保留率最高达 97.2%,数学和代码任务表现稳定。0.5B 模型实际运行内存约 200MB,具备在手表等端侧设备上部署的潜力。
面壁团队在 Megatron-LM 和华为 MindSpeed 上嵌入了可插拔的量化并行线性层,沉淀为基础设施。 量化训练和全精度训练共用同一套检查点和通信框架,使 32K 长序列训练也能跑通,为后续低比特训练提供了最佳实践参考。

💬 文章金句

- 纯血国产,在华为昇腾上完成训练。

  • 只用 10% 的尺寸,保留了 95% 的能力。
  • 这是首款【基于国产算力平台训练】的【三值大模型】,并开源。
  • 脱离 CUDA 体系,用纯血昇腾,一样能训模型。
  • 0.5B 的模型,小天才还真能跑。

📊 文章信息

AI 初评:87

来源:赛博禅心

作者:赛博禅心

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2052

标签: 三值大模型, BitCPM-CANN, 面壁智能, 华为昇腾, 量化感知训练

阅读完整文章

查看原文 → 發佈: 2026-05-25 11:58:00 收錄: 2026-05-26 00:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。