面壁智能端侧双响开源：MiniCPM5-1B 以 1B 打败 2B，BitCPM-CANN 释放 6 倍显存红利

📌 一句话摘要

面壁智能联合清华开源 MiniCPM5-1B 与 BitCPM-CANN，前者以 1B 参数超越 2B 级模型，后者通过 1.58-bit 量化释放 6 倍显存红利，全链路基于华为昇腾实现国产算力突破。

📝 详细摘要

面壁智能联合清华大学、OpenBMB 开源社区在端侧大模型开源周中连续发布两款模型。MiniCPM5-1B 仅 1B 参数，在 AA-Index 上超越所有 2B 以下模型（包括 Qwen3.5-2B），INT4 量化后权重仅 0.5GB，可跑在手机、浏览器甚至纯 CPU 环境上。其训练数据采用分级数据治理体系，并开源高质量合成数据集 Ultra-FineWeb-L3。BitCPM-CANN 是完全基于华为昇腾端到端训练的 1.58-bit 三值大模型，覆盖 0.5B/1B/3B/8B 四个规格，相比 BF16 释放约 6 倍显存红利，能力保留率 90%-97.2%。文章还详细介绍了模型部署和微调方法，并强调了 ForgeTrain 框架完全由 AI 编写，验证了 AI 制造 AI 的路径可行性。

💡 主要观点

- MiniCPM5-1B 以 1B 参数在 AA-Index 上超越所有 2B 以下模型，刷新智能密度上限。 该模型通过分级数据治理和高质量合成数据，证明了小模型在精心训练下可以承载更高的智能密度，验证了智能密度每 3.5 个月翻一番的密度定律。

BitCPM-CANN 采用 1.58-bit 量化感知训练，释放约 6 倍显存红利，能力保留率超 90%。 不同于后训练量化，BitCPM-CANN 在训练初始阶段就学习用三值权重表达知识，从根本上提升信息密度，使得 8B 模型可轻松运行在旗舰手机上。

BitCPM-CANN 完全基于华为昇腾平台完成端到端训练，攻克了国产算力极低比特训练难题。 从量化算子到训练框架全链路在昇腾上原生完成，填补了国产 NPU 在低比特模型供给侧的空档，证明昇腾不仅能训大模型，更能完成世界级的极低比特训练。

ForgeTrain 训练框架完全由 AI 编写，验证了 AI 制造 AI 的递归自改进智能路径。 ForgeTrain 在 H100 上训练速度超越英伟达 Megatron 框架 10%，其成功表明 AI 自主编写生产级代码并产出领先成果的路径是可行的。

💬 文章金句

- MiniCPM5-1B 再次刷新模型的智能密度上限：仅以 1B 参数规模，在 AA-Index 上超越了所有 2B 参数以下模型。

BitCPM-CANN 采用量化感知训练（QAT）路线......让模型在极低比特位宽的约束下'原生生长'，迫使每一个 bit 发挥出最大的信息密度和知识承载效率。
这是昇腾平台上首个公开的、端到端完成 1.58-bit 训练并进行全精度对照评测的成果。
不是等硬件变强来适应模型，而是让模型变聪明来适应硬件。

📊 文章信息

AI 初评：88

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3983

标签：面壁智能, MiniCPM5, BitCPM, 端侧大模型, 1.58-bit

阅读完整文章

面壁智能端侧双响开源：MiniCPM5-1B 以 1B 打败 2B，BitCPM-CANN 释放 6 倍显存红利

🤖 問 AI