面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源中国首个完全基于华为昇腾国产算力平台训练的三值(1.58-bit)端侧大模型 BitCPM-CANN,包含 0.5B 至 8B 四个尺寸,在推理阶段释放约 6 倍显存红利,模型能力保留率达 90%-97.2%。
📝 详细摘要
本文报道了面壁智能在「端侧大模型开源周」首日发布的开源成果 BitCPM-CANN。该模型是中国首个完全基于华为昇腾国产算力平台、从量化算子到训练框架全链路原生训练的 1.58-bit 三值大模型。与传统 BF16 精度相比,BitCPM-CANN 在推理阶段可释放约 6 倍显存红利,同时将模型能力保留率维持在 90%-97.2%。文章详细阐述了其核心技术创新:采用量化感知训练(QAT)路线,而非传统的后训练量化(PTQ),让模型在极低比特位宽约束下「原生生长」,迫使每个 bit 承载更多知识。该模型包含 0.5B、1B、3B、8B 四个尺寸,与同尺寸 MiniCPM-4 全精度家族在 11 项任务上进行了 1:1 对照评测。文章还分析了该技术对手机产业(可在旗舰手机上运行 8B 模型,结合 MoE 有望装入 50B-100B 参数模型)、芯片生态(填补了端侧芯片在低比特模型供给侧的空档)和 AI 应用(对冲 HBM 价格上涨压力)的深远影响。
💡 主要观点
- BitCPM-CANN 是中国首个完全基于华为昇腾国产算力平台训练并开源的三值(1.58-bit)端侧大模型。 从量化算子、训练算法到全链路框架均在昇腾上原生完成,包含 0.5B、1B、3B、8B 四个尺寸,标志着国产 NPU 首次拥有自己的 1.58-bit 低比特训练栈。
💬 文章金句
- BitCPM-CANN 彻底颠覆了这一路径。它采用的是技术门槛更高、但效果也更优越的量化感知训练(QAT)路线——模型并非在训练完成后才被动压缩,而是在训练的初始阶段,就主动学习如何用 1.58-bit 的三值权重(-1,0,+1)来承载和表达知识。
- 6 倍的显存红利意味着,一个 8B 参数的 BitCPM-CANN 大模型,可以轻松运行在当前主流旗舰手机之上。
- 不是等硬件变得足够强大来适应模型,而是让模型变得足够聪明来适应硬件。
- BitCPM-CANN 用事实回答了一个行业关切的问题:昇腾不仅能训大模型,更能完成世界级的极低比特训练。
📊 文章信息
AI 初评:86
来源:51CTO技术栈
作者:51CTO技术栈
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3761
标签: BitCPM-CANN, 面壁智能, 端侧大模型, 1.58-bit, 国产算力