面壁智能联合清华大学、OpenBMB 开源社区发布 MiniCPM-V 4.6,以 1.3B 参数实现端侧多模态模型性能与效率的双重突破,推理吞吐量达同尺寸竞品 1.5 倍,仅需 6G 内存即可流畅运行。
📝 详细摘要
文章详细介绍了新一代端侧多模态大模型 MiniCPM-V 4.6 的技术突破。该模型以仅 1.3B 的参数规模,在多个权威基准评测中全面超越阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it,成为同尺寸性能标杆。其核心创新在于两大底层技术:一是采用 LLaVA-UHD v4 技术,通过 ViT 内部视觉 token 早压缩,将图像编码计算量锐减 50%;二是提供业界领先的 4 倍/16 倍混合 Token 压缩双模式切换,让开发者可在性能与速度间按需选择。得益于这些创新,MiniCPM-V 4.6 实现了参数更大但跑得更快的效率奇迹,推理吞吐量是 Qwen3.5-0.8B 的 1.5 倍,单卡可达 7013 token/s。文章还介绍了该模型对开发者的友好支持,包括消费级显卡即可微调、主流推理框架全面适配,以及其在汽车、PC、手机等终端场景的规模化落地应用。
💡 主要观点
- MiniCPM-V 4.6 以 1.3B 参数实现同尺寸最佳性能,全面超越 Qwen3.5-0.8B 和 Gemma4-E2B-it。 在通用图文理解、STEM 数理推理、文档 OCR 等任务上全面领先,AA 榜单评测中以 13 分成绩跻身前列,成为 1B 级开源模型性能标杆。
💬 文章金句
- MiniCPM-V 4.6 以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶。
- 尽管参数规模比 Qwen3.5-0.8B 更大,但 MiniCPM-V 4.6 的运行效率却更快,实现了惊人的反超。
- MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。
- 极低的显存占用、极高的并发吞吐量、完备的上下游工具链——MiniCPM-V 4.6 天生就是为了被「爆改」而生。
- 从 8B 到 4B,再到今天的 1.3B,MiniCPM-V 系列的每一次迭代,都不是能力的妥协,而是效率的跃升。
📊 文章信息
AI 初评:86
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2998
标签: MiniCPM-V 4.6, 端侧多模态, 面壁智能, LLaVA-UHD v4, 视觉 Token 压缩