MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告，首次公开 Omni-Flow 流式全模态框架，实现 9B 参数下的端到端全双工多模态交互，并开放 API 与端侧安装包。

📝 详细摘要

本文报道了面壁智能联合清华大学等机构发布 MiniCPM-o 4.5 技术报告的消息。该模型仅 9B 参数，通过创新的 Omni-Flow 流式全模态框架，实现了业界首个端到端全双工全模态交互，即模型能持续感知环境（看视频、听声音）的同时进行思考和响应。文章详细解读了其端到端架构（视觉编码器、音频编码器、LLM 基座、语音解码器）、TAIL 语音生成方案，并展示了其在推理效率、视觉理解、全双工交互和语音生成等多个维度的性能评测结果，表现与 Gemini 2.5 Flash 等大模型相当。同时，文章宣布开放全模态全双工 API、提供 Windows/macOS 端侧安装包 Comni（最低 12GB 显存），并开源了 Demo 仓库，旨在推动全双工 AI 交互在智能座舱、无障碍辅助等场景的落地。

💡 主要观点

- MiniCPM-o 4.5 实现了 9B 参数下的端到端全双工全模态交互。 通过 Omni-Flow 框架，模型能在持续感知视觉和音频输入的同时进行思考和响应，支持打断、插话等高级交互，摆脱了对外部 VAD 的依赖。

Omni-Flow 流式全模态框架是 MiniCPM-o 4.5 实现全双工的核心。 该框架将视觉、音频、语言等所有信息流对齐到毫秒级时间片上，模型在每个时间片内完成感知-思考-响应循环，实现高效的流式处理。

MiniCPM-o 4.5 在消费级显卡上即可运行，并开放了 API 和端侧安装包。 INT4 量化版仅需 12GB 显存（如 RTX 5070），推理速度达 212 tokens/s。同时开放了免费 API 和 Windows/macOS 一键安装包 Comni，降低了部署门槛。

该模型在多项基准测试中与 Gemini 2.5 Flash 等大模型表现相当。 在 OpenCompass、MMBench 等视觉基准上持平，在全双工视频理解基准 LiveSports-3K-CC 上胜率高达 54.4%，展现了小参数模型的高效能力。

💬 文章金句

- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」，模型能在持续感知环境（看视频、听声音）的同时进行思考和响应。

Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流，在时间上进行精确切片和对齐。
全双工全模态大模型不是一个遥远的概念，而是会催生一系列全新的应用，例如主动式伴侣、无障碍辅助、智能座舱和具身智能。

📊 文章信息

AI 初评：86

来源：AINLP

作者：AINLP

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3949

标签： MiniCPM-o 4.5, 全双工, 全模态, Omni-Flow, 端侧部署

阅读完整文章

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

🤖 問 AI