← 回總覽

1.3B 参数,2.4 倍推理吞吐:MiniCPM-V 4.6 开源,实现端侧效率新突破

📅 2026-05-13 12:33 PaperWeekly 人工智能 2 分鐘 1966 字 評分: 86
MiniCPM-V 4.6 端侧多模态 面壁智能 LLaVA-UHD v4 视觉 Token 压缩
📌 一句话摘要 面壁智能联合清华大学、OpenBMB 开源社区发布 MiniCPM-V 4.6,以 1.3B 参数实现端侧多模态模型性能与效率的双重突破,推理吞吐量达同尺寸竞品 1.5 倍,仅需 6G 内存即可流畅运行。 📝 详细摘要 文章详细介绍了新一代端侧多模态大模型 MiniCPM-V 4.6 的技术突破。该模型以仅 1.3B 的参数规模,在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it,成为同尺寸性能标杆。其核心创新在于两大底层技术:一是采用 LLaVA-UHD v4 技术,通过 ViT 内部视觉 token 早压缩,将图像编码计算量锐

📌 一句话摘要

面壁智能联合清华大学、OpenBMB 开源社区发布 MiniCPM-V 4.6,以 1.3B 参数实现端侧多模态模型性能与效率的双重突破,推理吞吐量达同尺寸竞品 1.5 倍,仅需 6G 内存即可流畅运行。

📝 详细摘要

文章详细介绍了新一代端侧多模态大模型 MiniCPM-V 4.6 的技术突破。该模型以仅 1.3B 的参数规模,在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it,成为同尺寸性能标杆。其核心创新在于两大底层技术:一是采用 LLaVA-UHD v4 技术,通过 ViT 内部视觉 token 早压缩,将图像编码计算量锐减 50%;二是提供业界领先的 4 倍/16 倍混合 Token 压缩双模式切换,让开发者可在性能与速度间按需选择。得益于这些创新,MiniCPM-V 4.6 实现了参数更大但跑得更快的效率奇迹,推理吞吐量是 Qwen3.5-0.8B 的 1.5 倍,单卡可达 7013 token/s。文章还介绍了该模型对开发者的友好支持,包括消费级显卡即可微调、主流推理框架全面适配,以及其在汽车、PC、手机等终端场景的规模化落地应用。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现同尺寸最佳性能,全面超越 Qwen3.5-0.8B 和 Gemma4-E2B-it。 在通用图文理解、STEM 数理推理、文档 OCR 等任务上全面领先,AA 榜单评测中以 13 分成绩跻身前列,成为 1B 级开源模型性能标杆。

LLaVA-UHD v4 技术通过 ViT 内部视觉 token 早压缩,将图像编码计算量锐减 50%。 采用高效切片编码替代传统全局编码,避免注意力计算量随分辨率二次方增长;在 ViT 浅层引入压缩模块,让后续层只需处理极少量 Token,实现极致的轻量化推理。
4 倍/16 倍混合 Token 压缩双模式切换,让开发者按需平衡性能与速度。 4 倍压缩模式适合高要求的文档解析等细节敏感型任务;16 倍压缩模式适合实时交互、低算力环境等场景,已在快手推荐大模型 OneRec 中得到产业验证。
模型推理效率显著领先,单卡吞吐量达 7013 token/s,是 Qwen3.5-0.8B 的 1.5 倍。 在单并发首响延迟上,3136² 高清大图仅需 75.7 ms,较 Qwen3.5-0.8B 快 2.2 倍;AA 评测中 token 消耗仅为 Qwen3.5-0.8B 的 1/19,智能密度为同尺寸最高。
模型对开发者友好,消费级显卡即可微调,主流推理框架全面适配。 仅需一张 RTX 4090 即可全量跑通微调流程;官方原生支持 ms-swift 与 LLaMA-Factory 微调框架,并适配 vLLM、SGLang、Ollama 等推理框架,提供保姆级部署指南。

💬 文章金句

- MiniCPM-V 4.6 以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶。

  • 尽管参数规模比 Qwen3.5-0.8B 更大,但 MiniCPM-V 4.6 的运行效率却更快,实现了惊人的反超。
  • MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。
  • 极低的显存占用、极高的并发吞吐量、完备的上下游工具链——MiniCPM-V 4.6 天生就是为了被「爆改」而生。
  • 从 8B 到 4B,再到今天的 1.3B,MiniCPM-V 系列的每一次迭代,都不是能力的妥协,而是效率的跃升。

📊 文章信息

AI 初评:86

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2998

标签: MiniCPM-V 4.6, 端侧多模态, 面壁智能, LLaVA-UHD v4, 视觉 Token 压缩

阅读完整文章

查看原文 → 發佈: 2026-05-13 12:33:00 收錄: 2026-05-13 22:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。