← 回總覽

将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

📅 2026-05-25 20:04 Selina 人工智能 2 分鐘 1613 字 評分: 87
三值量化 1.58-bit BitCPM-CANN 面壁智能 华为昇腾
📌 一句话摘要 面壁智能联合清华、OpenBMB 发布 BitCPM-CANN 三值大模型系列,在华为昇腾上首次实现端到端训练,以 1.58-bit 量化节省约 6 倍显存,保留 97% 模型能力,为端侧大模型部署开辟新路径。 📝 详细摘要 本文报道了面壁智能在华为鲲鹏昇腾开发者大会(KADC 2026)上发布的三值大模型系列 BitCPM-CANN。该系列基于 1.58-bit 三值量化技术,将模型权重从传统的高精度浮点数压缩至仅三个可选值(-1、0、1),从而将显存占用降低约 6 倍。文章指出,BitCPM-CANN 是首个在华为昇腾芯片上完成端到端三值训练的大模型,覆盖 0.5B 至

📌 一句话摘要

面壁智能联合清华、OpenBMB 发布 BitCPM-CANN 三值大模型系列,在华为昇腾上首次实现端到端训练,以 1.58-bit 量化节省约 6 倍显存,保留 97% 模型能力,为端侧大模型部署开辟新路径。

📝 详细摘要

本文报道了面壁智能在华为鲲鹏昇腾开发者大会(KADC 2026)上发布的三值大模型系列 BitCPM-CANN。该系列基于 1.58-bit 三值量化技术,将模型权重从传统的高精度浮点数压缩至仅三个可选值(-1、0、1),从而将显存占用降低约 6 倍。文章指出,BitCPM-CANN 是首个在华为昇腾芯片上完成端到端三值训练的大模型,覆盖 0.5B 至 8B 四个参数档位,在 11 项评测任务中能力保留率高达 95.7% 至 97.2%。这意味着一个原本需要 16GB 显存的 8B 模型,现在仅需不到 3GB,有望在 8GB 内存的手机上运行 600 亿参数模型。文章还分析了该技术的产业价值:在内存价格持续上涨的背景下,6 倍显存红利是刚需;高通最新旗舰芯片已支持 2-bit 原生推理,形成「芯片-模型」双向奔赴的态势。面壁智能的差异化优势在于其从底层训练框架 BM-Train 到端侧模型 MiniCPM 再到三值量化的完整技术体系,且全部基于国产算力,构建了国产闭环。

💡 主要观点

- BitCPM-CANN 首次在华为昇腾上完成三值大模型端到端训练。 此前所有公开的三值模型训练均依赖 NVIDIA GPU,BitCPM-CANN 证明了国产算力同样可以跑通极低比特训练,训练效率达到常规基线的 95%。

三值量化以 1.58-bit 存储权重,节省约 6 倍显存,能力保留率超 97%。 通过将权重压缩至 -1、0、1 三个值,8B 模型显存需求从 16GB 降至不到 3GB,在 11 项评测中能力保留率最高达 97.2%,证明传统 16 位精度存在大量冗余。
该技术为端侧大模型部署提供了关键突破,有望在手机等终端运行超大模型。 结合 MoE 架构与激活范围约束,60B 规模模型有望装入 8GB 内存手机。高通最新芯片已支持 2-bit 原生推理,硬件与模型同步到位。
面壁智能构建了从框架、模型到芯片适配的完整国产端侧技术闭环。 基于自研 BM-Train 训练框架和 MiniCPM 模型家族,BitCPM-CANN 将训练方法论沉淀为昇腾低比特训练基础设施,后续团队可复用同一套底座。

💬 文章金句

- 三个值,如果分配得当,足以承载绝大部分的模型能力。

  • 三值量化不是「用精度换内存」的妥协。当 97% 的能力被保留下来时,说明传统 16 位模型里大量的精度可能是冗余的。
  • 不是等硬件变得足够强大来适应模型,要让模型变得足够聪明来适应硬件。
  • 这是一条完整的国产闭环,框架国产,芯片国产,模型国产,方法论自主。

📊 文章信息

AI 初评:87

来源:爱范儿

作者:Selina

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3093

标签: 三值量化, 1.58-bit, BitCPM-CANN, 面壁智能, 华为昇腾

阅读完整文章

查看原文 → 發佈: 2026-05-25 20:04:51 收錄: 2026-05-25 16:00:43

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。