消费级显卡可以快速上手跑！面壁智能 MiniCPM-o 4.5 发技术报告

📌 一句话摘要

面壁智能发布 MiniCPM-o 4.5 技术报告，公开 Omni-Flow 流式全模态框架，实现业界首个端到端全双工全模态交互，仅需 12GB 显存即可在消费级显卡上运行。

📝 详细摘要

面壁智能联合 OpenBMB 开源社区、清华大学实验室正式发布 MiniCPM-o 4.5 技术报告。该模型是业界首个端到端全双工全模态大模型，参数规模约 9B，支持视频、音频、文本流输入及文本与语音的连续输出。核心底层技术为 Omni-Flow 流式全模态框架，通过时分复用机制将多模态并行信息流对齐重组为周期性时序信息组，实现毫秒级统一时间轴，原生支持持续感知、即时响应、自由打断，无需外部 VAD 工具。模型采用轻量化端到端设计，由 SigLIP-ViT 视觉编码器、Whisper-Medium 音频编码器、Qwen3-8B LLM 基座和轻量级语音 Token 解码器四大模块构成。在多项评测中表现优异，OpenCompass 综合得分 77.6，MMBench 英文得分 87.6，INT4 量化版本仅需 12GB 显存，解码速度达 212 tokens/s。模型已开放在线体验、API、端侧安装包和 Demo 代码仓库，Hugging Face 下载量突破 25 万。

💡 主要观点

- MiniCPM-o 4.5 是业界首个端到端全双工全模态大模型。 区别于传统半双工轮次对话，该模型支持视频、音频、文本流并行输入与连续输出，用户可自由打断，AI 能实时感知环境并主动提醒，解决了多模态 AI 交互的时空割裂问题。

Omni-Flow 流式全模态框架是核心底层技术。 该框架通过时分复用机制，将视觉、音频、文本等多模态信息流精准对齐为周期性时序信息组，以每秒一次的高频次刷新环境认知，无需外部 VAD 工具，原生支持持续感知和自由打断。

模型仅需 12GB 显存即可在消费级显卡上运行。 INT4 量化版本显存占用大幅降低，RTX 5070 即可流畅运行全双工模式（RTF 0.4），解码速度达 212 tokens/s，比同类模型提速 40% 以上，极大降低了端侧部署门槛。

模型在多项评测中实现越级对标。 OpenCompass 综合得分 77.6、MMBench 英文得分 87.6，整体对标 Gemini 2.5 Flash；在全双工视频基准测试 LiveSports-3K-CC 中胜率达 54.4%，领先各类专用流式视频模型。

💬 文章金句

- MiniCPM-o 4.5 是面壁智能今年 2 月发布的全双工全模态模型，也是业界首个端到端全双工全模态大模型。

Omni-Flow 流式全模态框架打破传统模型孤立的回合式交互逻辑，搭建起毫秒级统一时间轴。
不用联网、仅用一张消费级显卡，你就能在个人电脑上拥有一个'边看、边听、边说、还能主动提醒'的类人 AI 助手。
MiniCPM-o 4.5 把'主动式 AI'从概念变成了可以在你电脑上跑起来的东西。

📊 文章信息

AI 初评：88

来源：量子位

作者：衡宇

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2707

标签： MiniCPM-o 4.5, 面壁智能, 全双工, 全模态, Omni-Flow

阅读完整文章

消费级显卡可以快速上手跑！面壁智能 MiniCPM-o 4.5 发技术报告

🤖 問 AI