手机用的多模态模型开源了，1.3B 大小的 MiniCPM-V 4.6 真顶。

📌 一句话摘要

面壁智能开源了仅 1.3B 参数的多模态模型 MiniCPM-V 4.6，在手机端即可运行，综合能力超越同尺寸竞品，并通过 LLaVA-UHD v4 和混合压缩技术实现了极致的推理效率。

📝 详细摘要

文章介绍了面壁智能最新开源的 MiniCPM-V 4.6 多模态模型。该模型仅有 1.3B 参数，是所有手机都能运行的端侧模型。在综合能力上，它超越了阿里 Qwen3.5-0.8B 和 Google Gemma4-E2B-it。文章重点解析了其极致效率背后的两项技术创新：LLaVA-UHD v4 将 Token 压缩前移至 ViT 浅层，降低 55.8% 的视觉编码计算量；以及 4 倍/16 倍混合压缩策略，兼顾精度与速度。文章还提到，快手已将 MiniCPM-V-8B 用于短视频推荐主场景，验证了 16 倍压缩的工业级可靠性。最后，文章强调了该模型极低的部署和微调门槛，以及完善的生态支持。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现了超越同尺寸竞品的综合能力。 该模型在多项图文理解任务上超过了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it，验证了「智能密度」理念，即模型性能不单纯取决于参数规模。

LLaVA-UHD v4 通过前移 Token 压缩，大幅降低视觉编码计算量。 传统方案在 ViT 后压缩 Token，但视觉编码器内部计算量不减。LLaVA-UHD v4 将压缩前移至 ViT 浅层，并引入窗口注意力，使浮点运算量降低 55.8%，且性能不下降。

4 倍/16 倍混合压缩策略兼顾了精度与速度。 用户可根据场景在 4 倍压缩（高精度）和 16 倍压缩（高速度）间切换。快手已将 16 倍压缩版本用于其短视频推荐主场景，证明了其在工业环境下的可靠性。

1.3B 参数规模极大降低了部署和微调门槛。 模型可在手机、电脑等个人设备上运行，且 RTX 4090 等消费级显卡即可完成全量微调，并已适配 ms-swift、vLLM、Ollama 等主流框架，生态完善。

💬 文章金句

- 这是 MiniCPM-V 系列有史以来参数几乎最小的模型，只有 1.3B。

不是越做越大，是越做越密。
模型做小不是为了小，是为了让 AI 落到每一台设备上。
用 2.5% 的 token 量就超过了 Qwen3.5-0.8B，这个效率差距非常夸张。
日活几亿的产品，16 倍压缩扛住了。

📊 文章信息

AI 初评：84

来源：逛逛GitHub

作者：逛逛GitHub

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1970

标签： MiniCPM-V 4.6, 多模态模型, 端侧AI, 面壁智能, 模型效率

阅读完整文章

手机用的多模态模型开源了，1.3B 大小的 MiniCPM-V 4.6 真顶。

🤖 問 AI