1.3B 参数，2.4 倍推理吞吐：MiniCPM-V 4.6 开源，实现端侧效率新突破

📌 一句话摘要

面壁智能联合清华大学、OpenBMB 开源社区发布 MiniCPM-V 4.6，以 1.3B 参数实现端侧多模态模型性能与效率的双重突破，推理吞吐量达同尺寸竞品 1.5 倍，仅需 6G 内存即可流畅运行。

📝 详细摘要

文章详细介绍了新一代端侧多模态大模型 MiniCPM-V 4.6 的技术突破。该模型以仅 1.3B 的参数规模，在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it，成为同尺寸性能标杆。其核心创新在于两大底层技术：一是采用 LLaVA-UHD v4 技术，通过 ViT 内部视觉 token 早压缩，将图像编码计算量锐减 50%；二是提供业界领先的 4 倍/16 倍混合 Token 压缩双模式切换，让开发者可在性能与速度间按需选择。得益于这些创新，MiniCPM-V 4.6 实现了参数更大但跑得更快的效率奇迹，推理吞吐量是 Qwen3.5-0.8B 的 1.5 倍，单卡可达 7013 token/s。文章还介绍了该模型对开发者的友好支持，包括消费级显卡即可微调、主流推理框架全面适配，以及其在汽车、PC、手机等终端场景的规模化落地应用。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现同尺寸最佳性能，全面超越 Qwen3.5-0.8B 和 Gemma4-E2B-it。 在通用图文理解、STEM 数理推理、文档 OCR 等任务上全面领先，AA 榜单评测中以 13 分成绩跻身前列，成为 1B 级开源模型性能标杆。

LLaVA-UHD v4 技术通过 ViT 内部视觉 token 早压缩，将图像编码计算量锐减 50%。 采用高效切片编码替代传统全局编码，避免注意力计算量随分辨率二次方增长；在 ViT 浅层引入压缩模块，让后续层只需处理极少量 Token，实现极致的轻量化推理。

4 倍/16 倍混合 Token 压缩双模式切换，让开发者按需平衡性能与速度。 4 倍压缩模式适合高要求的文档解析等细节敏感型任务；16 倍压缩模式适合实时交互、低算力环境等场景，已在快手推荐大模型 OneRec 中得到产业验证。

模型推理效率显著领先，单卡吞吐量达 7013 token/s，是 Qwen3.5-0.8B 的 1.5 倍。 在单并发首响延迟上，3136² 高清大图仅需 75.7 ms，较 Qwen3.5-0.8B 快 2.2 倍；AA 评测中 token 消耗仅为 Qwen3.5-0.8B 的 1/19，智能密度为同尺寸最高。

模型对开发者友好，消费级显卡即可微调，主流推理框架全面适配。 仅需一张 RTX 4090 即可全量跑通微调流程；官方原生支持 ms-swift 与 LLaMA-Factory 微调框架，并适配 vLLM、SGLang、Ollama 等推理框架，提供保姆级部署指南。

💬 文章金句

- MiniCPM-V 4.6 以仅 1.3B 的参数规模，实现了性能与效率的双重突破，在全球同尺寸模型中登顶。

尽管参数规模比 Qwen3.5-0.8B 更大，但 MiniCPM-V 4.6 的运行效率却更快，实现了惊人的反超。
MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache，把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。
极低的显存占用、极高的并发吞吐量、完备的上下游工具链——MiniCPM-V 4.6 天生就是为了被「爆改」而生。
从 8B 到 4B，再到今天的 1.3B，MiniCPM-V 系列的每一次迭代，都不是能力的妥协，而是效率的跃升。

📊 文章信息

AI 初评：86

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2998

标签： MiniCPM-V 4.6, 端侧多模态, 面壁智能, LLaVA-UHD v4, 视觉 Token 压缩

阅读完整文章

1.3B 参数，2.4 倍推理吞吐：MiniCPM-V 4.6 开源，实现端侧效率新突破

🤖 問 AI