MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告，首次公开 Omni-Flow 流式全模态框架，实现 9B 参数端到端全双工全模态交互，RTX5070 即可本地运行。

📝 详细摘要

本文是 AI 前线对 MiniCPM-o 4.5 技术报告发布的报道。文章介绍了面壁智能联合 OpenBMB 开源社区、清华大学等机构发布的技术报告，核心是首次公开的 Omni-Flow 流式全模态框架。该框架通过时分复用机制，将视觉、音频、语言等多模态信息流对齐到毫秒级时间片，实现模型持续感知和即时反应的全双工交互能力。MiniCPM-o 4.5 总参数量 9B，采用端到端全模态架构，包含视觉编码器、音频编码器、LLM 基座、语音 Token 解码器和声码器。其 INT4 量化版仅需 12GB 显存即可运行，解码速度达 212 tokens/s。在多个基准测试中，MiniCPM-o 4.5 的综合视觉能力与 Gemini 2.5 Flash 相当，全模态交互能力全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。文章还介绍了同步开放的在线 Demo、全模态全双工 API、端侧安装包 Comni 和 Demo 仓库，并展望了在主动式伴侣、无障碍辅助、智能座舱、具身智能等场景的应用潜力。

💡 主要观点

- MiniCPM-o 4.5 首次公开 Omni-Flow 流式全模态框架，实现端到端全双工交互。 Omni-Flow 通过时分复用机制将多模态信息流对齐到毫秒级时间片，模型在每个时间片内完成感知-思考-响应循环，原生支持打断和插话，摆脱了对外部 VAD 的依赖。

9B 参数模型在消费级显卡上即可运行，INT4 量化版仅需 12GB 显存。 MiniCPM-o 4.5 的 INT4 量化版显存需求仅为 Qwen3-Omni INT4 版本的一半，解码速度达 212 tokens/s，比 Qwen3 快 40% 以上，极大降低了端侧部署门槛。

模型在多项基准测试中与 Gemini 2.5 Flash 等大模型表现相当或更优。 在 OpenCompass、MMBench 等视觉基准上与 Gemini 2.5 Flash 相当，在全模态交互基准上全面超越 Gemini 2.5 Flash 和 Qwen3-Omni，在全双工视频理解基准 LiveSports-3K-CC 上胜率达 54.4%。

💬 文章金句

- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」，模型能在持续感知环境（看视频、听声音）的同时进行思考和响应。

Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流，在时间上进行精确切片和对齐。
LLM 基座只生成文本 Token，而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。
全双工全模态大模型不是一个遥远的概念，而是会催生一系列全新的应用。

📊 文章信息

AI 初评：86

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4058

标签： MiniCPM-o 4.5, 全双工, 全模态, Omni-Flow, 端侧部署

阅读完整文章

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

🤖 問 AI