清华系团队出手！一张 4090 即可「爆改」，1.3B 小钢炮震撼开源

📌 一句话摘要

清华系团队面壁智能开源了新一代端侧多模态大模型 MiniCPM-V 4.6，仅 1.3B 参数，在性能上全面超越同级对手，推理效率实现反超，一张 RTX 4090 即可全量微调。

📝 详细摘要

文章报道了面壁智能联合清华大学、OpenBMB 开源社区发布的新一代端侧多模态大模型 MiniCPM-V 4.6。该模型仅有 1.3B 参数，但在多个主流 Benchmark 上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it 等对手。其核心亮点在于效率的显著提升：推理吞吐量达到对手的 1.5 倍，首响延迟快 2.2 倍，且在高分辨率图像处理下延迟增长极低。这得益于两项架构创新：一是自研的 LLaVA-UHD v4 技术，通过在 ViT 内部提前压缩视觉 Token，节省约 50% 算力；二是支持 4 倍和 16 倍混合视觉 Token 压缩率，让开发者可在精度和速度间灵活选择。此外，该模型原生支持 LLaMA-Factory、vLLM、Ollama 等主流框架，一张 RTX 4090 即可完成全量微调，大幅降低了端侧多模态模型的开发门槛。文章认为，这标志着端侧 AI 的「妥协」时代正在结束。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现性能越级，全面超越同级对手。 在多个主流 Benchmark 上，其 Instruct 版和 Thinking 版均全面碾压 Qwen3.5-0.8B 与 Gemma4-E2B-it，成为 1B 级多模态模型新标杆。

通过架构创新实现「参数更大，跑得更快」的效率反超。 自研 LLaVA-UHD v4 技术在 ViT 内部提前压缩视觉 Token，节省约 50% 算力，使推理吞吐量达对手 1.5 倍，首响延迟快 2.2 倍。

支持 4 倍/16 倍混合视觉 Token 压缩率，兼顾精度与速度。 开发者可根据任务需求在精度更高的 4 倍模式和速度更快的 16 倍模式间选择，使同一模型既能用于手机端交互，也能部署于云端高并发场景。

一张 RTX 4090 即可全量微调，大幅降低开发门槛。 模型原生支持 LLaMA-Factory、vLLM、Ollama 等主流框架，极低的显存占用和完备的工具链使其成为高性价比的多模态开发底座。

💬 文章金句

- 它不仅在性能上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it 等同级对手，更在效率上实现了惊人的「反超」——参数更大，跑得却更快。

MiniCPM-V 4.6 用更短的视觉序列和更小的 KV-Cache，把端侧体感与云侧 ROI 同时推到了新的高度。
一张消费级的 RTX 4090，就能完整跑下全量微调！
MiniCPM-V 4.6 的发布，不只是一个更强的模型，更是一个信号：端侧 AI 的「妥协」时代，正在结束。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3935

标签： MiniCPM-V 4.6, 面壁智能, 端侧大模型, 多模态, 开源

阅读完整文章

清华系团队出手！一张 4090 即可「爆改」，1.3B 小钢炮震撼开源

🤖 問 AI