清华系团队面壁智能开源了新一代端侧多模态大模型 MiniCPM-V 4.6,仅 1.3B 参数,在性能上全面超越同级对手,推理效率实现反超,一张 RTX 4090 即可全量微调。
📝 详细摘要
文章报道了面壁智能联合清华大学、OpenBMB 开源社区发布的新一代端侧多模态大模型 MiniCPM-V 4.6。该模型仅有 1.3B 参数,但在多个主流 Benchmark 上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it 等对手。其核心亮点在于效率的显著提升:推理吞吐量达到对手的 1.5 倍,首响延迟快 2.2 倍,且在高分辨率图像处理下延迟增长极低。这得益于两项架构创新:一是自研的 LLaVA-UHD v4 技术,通过在 ViT 内部提前压缩视觉 Token,节省约 50% 算力;二是支持 4 倍和 16 倍混合视觉 Token 压缩率,让开发者可在精度和速度间灵活选择。此外,该模型原生支持 LLaMA-Factory、vLLM、Ollama 等主流框架,一张 RTX 4090 即可完成全量微调,大幅降低了端侧多模态模型的开发门槛。文章认为,这标志着端侧 AI 的「妥协」时代正在结束。
💡 主要观点
- MiniCPM-V 4.6 以 1.3B 参数实现性能越级,全面超越同级对手。 在多个主流 Benchmark 上,其 Instruct 版和 Thinking 版均全面碾压 Qwen3.5-0.8B 与 Gemma4-E2B-it,成为 1B 级多模态模型新标杆。
💬 文章金句
- 它不仅在性能上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it 等同级对手,更在效率上实现了惊人的「反超」——参数更大,跑得却更快。
- MiniCPM-V 4.6 用更短的视觉序列和更小的 KV-Cache,把端侧体感与云侧 ROI 同时推到了新的高度。
- 一张消费级的 RTX 4090,就能完整跑下全量微调!
- MiniCPM-V 4.6 的发布,不只是一个更强的模型,更是一个信号:端侧 AI 的「妥协」时代,正在结束。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3935
标签: MiniCPM-V 4.6, 面壁智能, 端侧大模型, 多模态, 开源