← 回總覽

大模型越做越大,面壁智能反手做了个小 100 倍还能看图的

📅 2026-05-13 12:02 卡尔的AI沃茨 人工智能 2 分鐘 1472 字 評分: 82
MiniCPM-V 4.6 端侧模型 多模态 视觉Token压缩 面壁智能
📌 一句话摘要 面壁智能发布 MiniCPM-V 4.6,一款仅 1.3B 参数但具备多模态能力的端侧模型,通过创新的早期视觉 Token 压缩技术,在极低算力消耗下实现高效图文理解。 📝 详细摘要 本文介绍了面壁智能最新发布的 MiniCPM-V 4.6 模型。该模型仅有 1.3B 参数,却具备多模态(图文理解)能力,其核心创新在于将视觉 Token 压缩提前到 ViT 内部,使视觉编码阶段的 FLOPs 降低 55.8%。模型支持 4 倍和 16 倍混合视觉 Token 压缩,可在精度和速度间灵活切换。在公开评测中,其多模态综合能力超过 Qwen3.5-0.8B 和 Gemma4-E2

📌 一句话摘要

面壁智能发布 MiniCPM-V 4.6,一款仅 1.3B 参数但具备多模态能力的端侧模型,通过创新的早期视觉 Token 压缩技术,在极低算力消耗下实现高效图文理解。

📝 详细摘要

本文介绍了面壁智能最新发布的 MiniCPM-V 4.6 模型。该模型仅有 1.3B 参数,却具备多模态(图文理解)能力,其核心创新在于将视觉 Token 压缩提前到 ViT 内部,使视觉编码阶段的 FLOPs 降低 55.8%。模型支持 4 倍和 16 倍混合视觉 Token 压缩,可在精度和速度间灵活切换。在公开评测中,其多模态综合能力超过 Qwen3.5-0.8B 和 Gemma4-E2B-it,且 Token 消耗极低(非推理版仅 5.4M Token,为 Qwen3.5-0.8B 的 1/19)。文章认为,这类小尺寸、高效率的端侧模型是 AI 真正落地到现实世界的关键,它们更适合作为垂直场景的组件(如文档解析、OCR、本地相册理解),而非追求通用能力的超级模型。

💡 主要观点

- MiniCPM-V 4.6 以 1.3B 参数实现多模态能力,主打端侧部署。 在主流模型追求更大参数和上下文窗口的背景下,面壁智能反其道而行,聚焦小尺寸、高效率,使模型能在手机、车机等算力受限设备上运行。

核心创新是早期视觉 Token 压缩技术 LLaVA-UHD v4。 将视觉 Token 压缩从 ViT 之后提前到 ViT 内部,通过窗口注意力和参数复用,在尽量不损失图像表征质量的前提下,将视觉编码阶段 FLOPs 降低 55.8%。
支持 4 倍和 16 倍混合视觉 Token 压缩,兼顾精度与速度。 4 倍压缩保留更多细节,适合高精度场景;16 倍压缩大幅提升推理速度、降低成本,适合高并发或端侧场景。模型可在两种模式间灵活切换。
小尺寸模型是 AI 落地的关键,而非追求最强通用模型。 在真实业务中,延迟、吞吐、显存和功耗是核心约束。MiniCPM-V 4.6 这类模型更适合作为垂直场景的组件,如文档解析、OCR、本地相册理解等,做到够快、够轻、够稳、够便宜。

💬 文章金句

- 手机不会因为模型很聪明就多出一块 GPU。

  • 一个线上系统也不会因为你榜单分数好看,就允许每个请求都烧掉一大把算力。
  • 真正能让 AI 渗入现实世界的,是一堆稳定不需要烦恼 token 数的端侧模型。
  • 小尺寸模型的生命力,本来就在于被改造。
  • 它把多模态往基础设施的方向,又推进了一小步。

📊 文章信息

AI 初评:82

来源:卡尔的AI沃茨

作者:卡尔的AI沃茨

分类:人工智能

语言:中文

阅读时间:10 分钟

字数:2491

标签: MiniCPM-V 4.6, 端侧模型, 多模态, 视觉Token压缩, 面壁智能

阅读完整文章

查看原文 → 發佈: 2026-05-13 12:02:00 收錄: 2026-05-14 00:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。