← 回總覽

MiniCPM-V 4.6 开源:1.3B 多模态模型登顶同尺寸榜单,6G 内存跑通手机端

📅 2026-05-13 17:52 魔搭ModelScope社区 人工智能 2 分鐘 1474 字 評分: 86
MiniCPM-V 多模态模型 端侧AI 面壁智能 清华大学
📌 一句话摘要 面壁智能联合清华大学发布 MiniCPM-V 4.6,以 1.3B 参数、6G 内存即可在端侧流畅运行,性能登顶同尺寸榜单,并实现了效率反超。 📝 详细摘要 文章介绍了面壁智能、清华大学和 OpenBMB 开源社区联合发布的新一代端侧多模态大模型 MiniCPM-V 4.6。该模型以 1.3B 的参数规模,在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it,登顶同尺寸模型性能榜首。其核心创新在于 ViT 架构重构(LLaVA-UHD v4)和 4 倍/16 倍混合 Token 压缩技术,使得图像编码计算量锐减 50%,推理吞吐量达

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-V 4.6,以 1.3B 参数、6G 内存即可在端侧流畅运行,性能登顶同尺寸榜单,并实现了效率反超。

📝 详细摘要

文章介绍了面壁智能、清华大学和 OpenBMB 开源社区联合发布的新一代端侧多模态大模型 MiniCPM-V 4.6。该模型以 1.3B 的参数规模,在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it,登顶同尺寸模型性能榜首。其核心创新在于 ViT 架构重构(LLaVA-UHD v4)和 4 倍/16 倍混合 Token 压缩技术,使得图像编码计算量锐减 50%,推理吞吐量达到 Qwen3.5-0.8B 的 1.5 倍,而 token 消耗仅为后者的 1/19。文章还详细介绍了模型在端侧部署的低内存需求(6G)、微调方法(支持 ms-swift 和 LLaMA-Factory)以及主流推理框架(vLLM、SGLang、llama.cpp、Ollama)的适配情况。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现同尺寸最佳性能,全面超越竞品。 在多个权威基准评测中,该模型的 Instruct 和 Thinking 版本在通用图文理解、STEM 数理推理、文档 OCR 等任务上均领先于 Qwen3.5-0.8B 和 Gemma4-E2B-it。

通过 ViT 架构重构和混合 Token 压缩技术,实现了效率反超。 LLaVA-UHD v4 技术将图像编码计算量降低 50% 以上;4 倍/16 倍混合压缩模式允许开发者按需在性能和速度间切换,16 倍压缩模式使推理吞吐量达到竞品的 1.5 倍,token 消耗仅为 1/19。
模型仅需 6G 内存即可在端侧流畅运行,大幅降低落地门槛。 低内存需求使得该模型可以在手机、电脑等个人设备上高效部署,为端侧多模态 AI 应用提供了可行的技术路径。

💬 文章金句

- MiniCPM-V 4.6 以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶。

  • 推理吞吐量:基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍;计算成本:在 AA 评测中,仅用 2.5% 的 token 消耗就超越了 Qwen3.5-0.8B。
  • MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。

📊 文章信息

AI 初评:86

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3285

标签: MiniCPM-V, 多模态模型, 端侧AI, 面壁智能, 清华大学

阅读完整文章

查看原文 → 發佈: 2026-05-13 17:52:00 收錄: 2026-05-14 00:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。