面壁智能联合 OpenBMB 开源了基于华为昇腾平台训练的三值大模型 BitCPM-CANN,模型权重仅需约 200MB 内存,在 0.5B 到 8B 四个尺寸上仅用 10% 的尺寸保留了 95% 以上的能力。
📝 详细摘要
本文详细介绍了面壁智能在端侧开源周发布的三值大模型 BitCPM-CANN。该模型是首款基于国产算力平台(华为昇腾)训练的三值大模型,其参数权重仅保留 -1、0、1 三个状态,占用 1.58 位比特,相比常规 FP16 存储减少了约 90% 的尺寸。模型提供了 0.5B、1B、3B、8B 四个尺寸,全系开源。评测数据显示,1B 到 8B 档位的能力保留率均在 95% 以上,其中 3B 档位最高达 97.2%,数学和代码任务也稳在全精度上限附近。文章深入解释了量化感知训练(QAT)的技术原理,对比了后量化(PTQ)与 QAT 两种路线,并强调了面壁团队在脱离 CUDA 生态、将模型规模推到 8B、以及沉淀可插拔基础设施方面的技术突破。文章指出,该模型在推理时仅需原来 1/6 的显存,0.5B 模型实际运行约需 200MB 内存,具备在手表等端侧设备上运行的可能性。
💡 主要观点
- BitCPM-CANN 是首款基于华为昇腾平台训练的三值大模型,实现了国产算力生态的突破。 该模型完全脱离 CUDA 生态,在华为昇腾上原生跑通从量化算子到训练算法的全流程,证明了纯血昇腾也能训出前沿的极低比特大模型。
💬 文章金句
- 纯血国产,在华为昇腾上完成训练。
- 只用 10% 的尺寸,保留了 95% 的能力。
- 这是首款【基于国产算力平台训练】的【三值大模型】,并开源。
- 脱离 CUDA 体系,用纯血昇腾,一样能训模型。
- 0.5B 的模型,小天才还真能跑。
📊 文章信息
AI 初评:87
来源:赛博禅心
作者:赛博禅心
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2052
标签: 三值大模型, BitCPM-CANN, 面壁智能, 华为昇腾, 量化感知训练