大模型越做越大，面壁智能反手做了个小 100 倍还能看图的

📌 一句话摘要

面壁智能发布 MiniCPM-V 4.6，一款仅 1.3B 参数但具备多模态能力的端侧模型，通过创新的早期视觉 Token 压缩技术，在极低算力消耗下实现高效图文理解。

📝 详细摘要

本文介绍了面壁智能最新发布的 MiniCPM-V 4.6 模型。该模型仅有 1.3B 参数，却具备多模态（图文理解）能力，其核心创新在于将视觉 Token 压缩提前到 ViT 内部，使视觉编码阶段的 FLOPs 降低 55.8%。模型支持 4 倍和 16 倍混合视觉 Token 压缩，可在精度和速度间灵活切换。在公开评测中，其多模态综合能力超过 Qwen3.5-0.8B 和 Gemma4-E2B-it，且 Token 消耗极低（非推理版仅 5.4M Token，为 Qwen3.5-0.8B 的 1/19）。文章认为，这类小尺寸、高效率的端侧模型是 AI 真正落地到现实世界的关键，它们更适合作为垂直场景的组件（如文档解析、OCR、本地相册理解），而非追求通用能力的超级模型。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现多模态能力，主打端侧部署。 在主流模型追求更大参数和上下文窗口的背景下，面壁智能反其道而行，聚焦小尺寸、高效率，使模型能在手机、车机等算力受限设备上运行。

核心创新是早期视觉 Token 压缩技术 LLaVA-UHD v4。 将视觉 Token 压缩从 ViT 之后提前到 ViT 内部，通过窗口注意力和参数复用，在尽量不损失图像表征质量的前提下，将视觉编码阶段 FLOPs 降低 55.8%。

支持 4 倍和 16 倍混合视觉 Token 压缩，兼顾精度与速度。 4 倍压缩保留更多细节，适合高精度场景；16 倍压缩大幅提升推理速度、降低成本，适合高并发或端侧场景。模型可在两种模式间灵活切换。

小尺寸模型是 AI 落地的关键，而非追求最强通用模型。 在真实业务中，延迟、吞吐、显存和功耗是核心约束。MiniCPM-V 4.6 这类模型更适合作为垂直场景的组件，如文档解析、OCR、本地相册理解等，做到够快、够轻、够稳、够便宜。

💬 文章金句

- 手机不会因为模型很聪明就多出一块 GPU。

一个线上系统也不会因为你榜单分数好看，就允许每个请求都烧掉一大把算力。
真正能让 AI 渗入现实世界的，是一堆稳定不需要烦恼 token 数的端侧模型。
小尺寸模型的生命力，本来就在于被改造。
它把多模态往基础设施的方向，又推进了一小步。

📊 文章信息

AI 初评：82

来源：卡尔的AI沃茨

作者：卡尔的AI沃茨

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2491

标签： MiniCPM-V 4.6, 端侧模型, 多模态, 视觉Token压缩, 面壁智能

阅读完整文章

大模型越做越大，面壁智能反手做了个小 100 倍还能看图的

🤖 問 AI