将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了

📌 一句话摘要

面壁智能联合清华、OpenBMB 发布 BitCPM-CANN 三值大模型系列，在华为昇腾上首次实现端到端训练，以 1.58-bit 量化节省约 6 倍显存，保留 97% 模型能力，为端侧大模型部署开辟新路径。

📝 详细摘要

本文报道了面壁智能在华为鲲鹏昇腾开发者大会（KADC 2026）上发布的三值大模型系列 BitCPM-CANN。该系列基于 1.58-bit 三值量化技术，将模型权重从传统的高精度浮点数压缩至仅三个可选值（-1、0、1），从而将显存占用降低约 6 倍。文章指出，BitCPM-CANN 是首个在华为昇腾芯片上完成端到端三值训练的大模型，覆盖 0.5B 至 8B 四个参数档位，在 11 项评测任务中能力保留率高达 95.7% 至 97.2%。这意味着一个原本需要 16GB 显存的 8B 模型，现在仅需不到 3GB，有望在 8GB 内存的手机上运行 600 亿参数模型。文章还分析了该技术的产业价值：在内存价格持续上涨的背景下，6 倍显存红利是刚需；高通最新旗舰芯片已支持 2-bit 原生推理，形成「芯片-模型」双向奔赴的态势。面壁智能的差异化优势在于其从底层训练框架 BM-Train 到端侧模型 MiniCPM 再到三值量化的完整技术体系，且全部基于国产算力，构建了国产闭环。

💡 主要观点

- BitCPM-CANN 首次在华为昇腾上完成三值大模型端到端训练。 此前所有公开的三值模型训练均依赖 NVIDIA GPU，BitCPM-CANN 证明了国产算力同样可以跑通极低比特训练，训练效率达到常规基线的 95%。

三值量化以 1.58-bit 存储权重，节省约 6 倍显存，能力保留率超 97%。 通过将权重压缩至 -1、0、1 三个值，8B 模型显存需求从 16GB 降至不到 3GB，在 11 项评测中能力保留率最高达 97.2%，证明传统 16 位精度存在大量冗余。

该技术为端侧大模型部署提供了关键突破，有望在手机等终端运行超大模型。 结合 MoE 架构与激活范围约束，60B 规模模型有望装入 8GB 内存手机。高通最新芯片已支持 2-bit 原生推理，硬件与模型同步到位。

面壁智能构建了从框架、模型到芯片适配的完整国产端侧技术闭环。 基于自研 BM-Train 训练框架和 MiniCPM 模型家族，BitCPM-CANN 将训练方法论沉淀为昇腾低比特训练基础设施，后续团队可复用同一套底座。

💬 文章金句

- 三个值，如果分配得当，足以承载绝大部分的模型能力。

三值量化不是「用精度换内存」的妥协。当 97% 的能力被保留下来时，说明传统 16 位模型里大量的精度可能是冗余的。
不是等硬件变得足够强大来适应模型，要让模型变得足够聪明来适应硬件。
这是一条完整的国产闭环，框架国产，芯片国产，模型国产，方法论自主。

📊 文章信息

AI 初评：87

来源：爱范儿

作者：Selina

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3093

标签：三值量化, 1.58-bit, BitCPM-CANN, 面壁智能, 华为昇腾

阅读完整文章

将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了

🤖 問 AI