← 回總覽

手机用的多模态模型开源了,1.3B 大小的 MiniCPM-V 4.6 真顶。

📅 2026-05-13 13:51 逛逛GitHub 人工智能 2 分鐘 1467 字 評分: 84
MiniCPM-V 4.6 多模态模型 端侧AI 面壁智能 模型效率
📌 一句话摘要 面壁智能开源了仅 1.3B 参数的多模态模型 MiniCPM-V 4.6,在手机端即可运行,综合能力超越同尺寸竞品,并通过 LLaVA-UHD v4 和混合压缩技术实现了极致的推理效率。 📝 详细摘要 文章介绍了面壁智能最新开源的 MiniCPM-V 4.6 多模态模型。该模型仅有 1.3B 参数,是所有手机都能运行的端侧模型。在综合能力上,它超越了阿里 Qwen3.5-0.8B 和 Google Gemma4-E2B-it。文章重点解析了其极致效率背后的两项技术创新:LLaVA-UHD v4 将 Token 压缩前移至 ViT 浅层,降低 55.8% 的视觉编码计算量;以

📌 一句话摘要

面壁智能开源了仅 1.3B 参数的多模态模型 MiniCPM-V 4.6,在手机端即可运行,综合能力超越同尺寸竞品,并通过 LLaVA-UHD v4 和混合压缩技术实现了极致的推理效率。

📝 详细摘要

文章介绍了面壁智能最新开源的 MiniCPM-V 4.6 多模态模型。该模型仅有 1.3B 参数,是所有手机都能运行的端侧模型。在综合能力上,它超越了阿里 Qwen3.5-0.8B 和 Google Gemma4-E2B-it。文章重点解析了其极致效率背后的两项技术创新:LLaVA-UHD v4 将 Token 压缩前移至 ViT 浅层,降低 55.8% 的视觉编码计算量;以及 4 倍/16 倍混合压缩策略,兼顾精度与速度。文章还提到,快手已将 MiniCPM-V-8B 用于短视频推荐主场景,验证了 16 倍压缩的工业级可靠性。最后,文章强调了该模型极低的部署和微调门槛,以及完善的生态支持。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现了超越同尺寸竞品的综合能力。 该模型在多项图文理解任务上超过了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it,验证了「智能密度」理念,即模型性能不单纯取决于参数规模。

LLaVA-UHD v4 通过前移 Token 压缩,大幅降低视觉编码计算量。 传统方案在 ViT 后压缩 Token,但视觉编码器内部计算量不减。LLaVA-UHD v4 将压缩前移至 ViT 浅层,并引入窗口注意力,使浮点运算量降低 55.8%,且性能不下降。
4 倍/16 倍混合压缩策略兼顾了精度与速度。 用户可根据场景在 4 倍压缩(高精度)和 16 倍压缩(高速度)间切换。快手已将 16 倍压缩版本用于其短视频推荐主场景,证明了其在工业环境下的可靠性。
1.3B 参数规模极大降低了部署和微调门槛。 模型可在手机、电脑等个人设备上运行,且 RTX 4090 等消费级显卡即可完成全量微调,并已适配 ms-swift、vLLM、Ollama 等主流框架,生态完善。

💬 文章金句

- 这是 MiniCPM-V 系列有史以来参数几乎最小的模型,只有 1.3B。

  • 不是越做越大,是越做越密。
  • 模型做小不是为了小,是为了让 AI 落到每一台设备上。
  • 用 2.5% 的 token 量就超过了 Qwen3.5-0.8B,这个效率差距非常夸张。
  • 日活几亿的产品,16 倍压缩扛住了。

📊 文章信息

AI 初评:84

来源:逛逛GitHub

作者: 逛逛GitHub

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1970

标签: MiniCPM-V 4.6, 多模态模型, 端侧AI, 面壁智能, 模型效率

阅读完整文章

查看原文 → 發佈: 2026-05-13 13:51:00 收錄: 2026-05-14 00:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。