面壁智能联合清华大学发布 MiniCPM-V 4.6,以 1.3B 参数、6G 内存即可在端侧流畅运行,性能登顶同尺寸榜单,并实现了效率反超。
📝 详细摘要
文章介绍了面壁智能、清华大学和 OpenBMB 开源社区联合发布的新一代端侧多模态大模型 MiniCPM-V 4.6。该模型以 1.3B 的参数规模,在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it,登顶同尺寸模型性能榜首。其核心创新在于 ViT 架构重构(LLaVA-UHD v4)和 4 倍/16 倍混合 Token 压缩技术,使得图像编码计算量锐减 50%,推理吞吐量达到 Qwen3.5-0.8B 的 1.5 倍,而 token 消耗仅为后者的 1/19。文章还详细介绍了模型在端侧部署的低内存需求(6G)、微调方法(支持 ms-swift 和 LLaMA-Factory)以及主流推理框架(vLLM、SGLang、llama.cpp、Ollama)的适配情况。
💡 主要观点
- MiniCPM-V 4.6 以 1.3B 参数实现同尺寸最佳性能,全面超越竞品。 在多个权威基准评测中,该模型的 Instruct 和 Thinking 版本在通用图文理解、STEM 数理推理、文档 OCR 等任务上均领先于 Qwen3.5-0.8B 和 Gemma4-E2B-it。
💬 文章金句
- MiniCPM-V 4.6 以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶。
- 推理吞吐量:基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍;计算成本:在 AA 评测中,仅用 2.5% 的 token 消耗就超越了 Qwen3.5-0.8B。
- MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。
📊 文章信息
AI 初评:86
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3285
标签: MiniCPM-V, 多模态模型, 端侧AI, 面壁智能, 清华大学