面壁智能联合清华开源 MiniCPM5-1B 与 BitCPM-CANN,前者以 1B 参数超越 2B 级模型,后者通过 1.58-bit 量化释放 6 倍显存红利,全链路基于华为昇腾实现国产算力突破。
📝 详细摘要
面壁智能联合清华大学、OpenBMB 开源社区在端侧大模型开源周中连续发布两款模型。MiniCPM5-1B 仅 1B 参数,在 AA-Index 上超越所有 2B 以下模型(包括 Qwen3.5-2B),INT4 量化后权重仅 0.5GB,可跑在手机、浏览器甚至纯 CPU 环境上。其训练数据采用分级数据治理体系,并开源高质量合成数据集 Ultra-FineWeb-L3。BitCPM-CANN 是完全基于华为昇腾端到端训练的 1.58-bit 三值大模型,覆盖 0.5B/1B/3B/8B 四个规格,相比 BF16 释放约 6 倍显存红利,能力保留率 90%-97.2%。文章还详细介绍了模型部署和微调方法,并强调了 ForgeTrain 框架完全由 AI 编写,验证了 AI 制造 AI 的路径可行性。
💡 主要观点
- MiniCPM5-1B 以 1B 参数在 AA-Index 上超越所有 2B 以下模型,刷新智能密度上限。 该模型通过分级数据治理和高质量合成数据,证明了小模型在精心训练下可以承载更高的智能密度,验证了智能密度每 3.5 个月翻一番的密度定律。
💬 文章金句
- MiniCPM5-1B 再次刷新模型的智能密度上限:仅以 1B 参数规模,在 AA-Index 上超越了所有 2B 参数以下模型。
- BitCPM-CANN 采用量化感知训练(QAT)路线......让模型在极低比特位宽的约束下'原生生长',迫使每一个 bit 发挥出最大的信息密度和知识承载效率。
- 这是昇腾平台上首个公开的、端到端完成 1.58-bit 训练并进行全精度对照评测的成果。
- 不是等硬件变强来适应模型,而是让模型变聪明来适应硬件。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3983
标签: 面壁智能, MiniCPM5, BitCPM, 端侧大模型, 1.58-bit