面壁智能联合清华、OpenBMB 发布 BitCPM-CANN 三值大模型系列,在华为昇腾上首次实现端到端训练,以 1.58-bit 量化节省约 6 倍显存,保留 97% 模型能力,为端侧大模型部署开辟新路径。
📝 详细摘要
本文报道了面壁智能在华为鲲鹏昇腾开发者大会(KADC 2026)上发布的三值大模型系列 BitCPM-CANN。该系列基于 1.58-bit 三值量化技术,将模型权重从传统的高精度浮点数压缩至仅三个可选值(-1、0、1),从而将显存占用降低约 6 倍。文章指出,BitCPM-CANN 是首个在华为昇腾芯片上完成端到端三值训练的大模型,覆盖 0.5B 至 8B 四个参数档位,在 11 项评测任务中能力保留率高达 95.7% 至 97.2%。这意味着一个原本需要 16GB 显存的 8B 模型,现在仅需不到 3GB,有望在 8GB 内存的手机上运行 600 亿参数模型。文章还分析了该技术的产业价值:在内存价格持续上涨的背景下,6 倍显存红利是刚需;高通最新旗舰芯片已支持 2-bit 原生推理,形成「芯片-模型」双向奔赴的态势。面壁智能的差异化优势在于其从底层训练框架 BM-Train 到端侧模型 MiniCPM 再到三值量化的完整技术体系,且全部基于国产算力,构建了国产闭环。
💡 主要观点
- BitCPM-CANN 首次在华为昇腾上完成三值大模型端到端训练。 此前所有公开的三值模型训练均依赖 NVIDIA GPU,BitCPM-CANN 证明了国产算力同样可以跑通极低比特训练,训练效率达到常规基线的 95%。
💬 文章金句
- 三个值,如果分配得当,足以承载绝大部分的模型能力。
- 三值量化不是「用精度换内存」的妥协。当 97% 的能力被保留下来时,说明传统 16 位模型里大量的精度可能是冗余的。
- 不是等硬件变得足够强大来适应模型,要让模型变得足够聪明来适应硬件。
- 这是一条完整的国产闭环,框架国产,芯片国产,模型国产,方法论自主。
📊 文章信息
AI 初评:87
来源:爱范儿
作者:Selina
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3093
标签: 三值量化, 1.58-bit, BitCPM-CANN, 面壁智能, 华为昇腾