← 回總覽

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070 即可实时运行

📅 2026-04-28 14:57 AINLP 人工智能 2 分鐘 1548 字 評分: 86
MiniCPM-o 4.5 全双工 全模态 Omni-Flow 端侧部署
📌 一句话摘要 面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数下的端到端全双工多模态交互,并开放 API 与端侧安装包。 📝 详细摘要 本文报道了面壁智能联合清华大学等机构发布 MiniCPM-o 4.5 技术报告的消息。该模型仅 9B 参数,通过创新的 Omni-Flow 流式全模态框架,实现了业界首个端到端全双工全模态交互,即模型能持续感知环境(看视频、听声音)的同时进行思考和响应。文章详细解读了其端到端架构(视觉编码器、音频编码器、LLM 基座、语音解码器)、TAIL 语音生成方案,并展示了其在推理效率、

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数下的端到端全双工多模态交互,并开放 API 与端侧安装包。

📝 详细摘要

本文报道了面壁智能联合清华大学等机构发布 MiniCPM-o 4.5 技术报告的消息。该模型仅 9B 参数,通过创新的 Omni-Flow 流式全模态框架,实现了业界首个端到端全双工全模态交互,即模型能持续感知环境(看视频、听声音)的同时进行思考和响应。文章详细解读了其端到端架构(视觉编码器、音频编码器、LLM 基座、语音解码器)、TAIL 语音生成方案,并展示了其在推理效率、视觉理解、全双工交互和语音生成等多个维度的性能评测结果,表现与 Gemini 2.5 Flash 等大模型相当。同时,文章宣布开放全模态全双工 API、提供 Windows/macOS 端侧安装包 Comni(最低 12GB 显存),并开源了 Demo 仓库,旨在推动全双工 AI 交互在智能座舱、无障碍辅助等场景的落地。

💡 主要观点

- MiniCPM-o 4.5 实现了 9B 参数下的端到端全双工全模态交互。 通过 Omni-Flow 框架,模型能在持续感知视觉和音频输入的同时进行思考和响应,支持打断、插话等高级交互,摆脱了对外部 VAD 的依赖。

Omni-Flow 流式全模态框架是 MiniCPM-o 4.5 实现全双工的核心。 该框架将视觉、音频、语言等所有信息流对齐到毫秒级时间片上,模型在每个时间片内完成感知-思考-响应循环,实现高效的流式处理。
MiniCPM-o 4.5 在消费级显卡上即可运行,并开放了 API 和端侧安装包。 INT4 量化版仅需 12GB 显存(如 RTX 5070),推理速度达 212 tokens/s。同时开放了免费 API 和 Windows/macOS 一键安装包 Comni,降低了部署门槛。
该模型在多项基准测试中与 Gemini 2.5 Flash 等大模型表现相当。 在 OpenCompass、MMBench 等视觉基准上持平,在全双工视频理解基准 LiveSports-3K-CC 上胜率高达 54.4%,展现了小参数模型的高效能力。

💬 文章金句

- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应。

  • Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。
  • 全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用,例如主动式伴侣、无障碍辅助、智能座舱和具身智能。

📊 文章信息

AI 初评:86

来源:AINLP

作者:AINLP

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3949

标签: MiniCPM-o 4.5, 全双工, 全模态, Omni-Flow, 端侧部署

阅读完整文章

查看原文 → 發佈: 2026-04-28 14:57:00 收錄: 2026-04-29 00:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。