MiniCPM-V 4.6 开源：1.3B 多模态模型登顶同尺寸榜单，6G 内存跑通手机端

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-V 4.6，以 1.3B 参数、6G 内存即可在端侧流畅运行，性能登顶同尺寸榜单，并实现了效率反超。

📝 详细摘要

文章介绍了面壁智能、清华大学和 OpenBMB 开源社区联合发布的新一代端侧多模态大模型 MiniCPM-V 4.6。该模型以 1.3B 的参数规模，在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it，登顶同尺寸模型性能榜首。其核心创新在于 ViT 架构重构（LLaVA-UHD v4）和 4 倍/16 倍混合 Token 压缩技术，使得图像编码计算量锐减 50%，推理吞吐量达到 Qwen3.5-0.8B 的 1.5 倍，而 token 消耗仅为后者的 1/19。文章还详细介绍了模型在端侧部署的低内存需求（6G）、微调方法（支持 ms-swift 和 LLaMA-Factory）以及主流推理框架（vLLM、SGLang、llama.cpp、Ollama）的适配情况。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现同尺寸最佳性能，全面超越竞品。 在多个权威基准评测中，该模型的 Instruct 和 Thinking 版本在通用图文理解、STEM 数理推理、文档 OCR 等任务上均领先于 Qwen3.5-0.8B 和 Gemma4-E2B-it。

通过 ViT 架构重构和混合 Token 压缩技术，实现了效率反超。 LLaVA-UHD v4 技术将图像编码计算量降低 50% 以上；4 倍/16 倍混合压缩模式允许开发者按需在性能和速度间切换，16 倍压缩模式使推理吞吐量达到竞品的 1.5 倍，token 消耗仅为 1/19。

模型仅需 6G 内存即可在端侧流畅运行，大幅降低落地门槛。 低内存需求使得该模型可以在手机、电脑等个人设备上高效部署，为端侧多模态 AI 应用提供了可行的技术路径。

💬 文章金句

- MiniCPM-V 4.6 以仅 1.3B 的参数规模，实现了性能与效率的双重突破，在全球同尺寸模型中登顶。

推理吞吐量：基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍；计算成本：在 AA 评测中，仅用 2.5% 的 token 消耗就超越了 Qwen3.5-0.8B。
MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache，把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。

📊 文章信息

AI 初评：86

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3285

标签： MiniCPM-V, 多模态模型, 端侧AI, 面壁智能, 清华大学

阅读完整文章

MiniCPM-V 4.6 开源：1.3B 多模态模型登顶同尺寸榜单，6G 内存跑通手机端

🤖 問 AI