← 回總覽

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070 即可实时运行

📅 2026-04-30 10:32 AI前线 人工智能 2 分鐘 1635 字 評分: 86
MiniCPM-o 4.5 全双工 全模态 Omni-Flow 端侧部署
📌 一句话摘要 面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数端到端全双工全模态交互,RTX5070 即可本地运行。 📝 详细摘要 本文是 AI 前线对 MiniCPM-o 4.5 技术报告发布的报道。文章介绍了面壁智能联合 OpenBMB 开源社区、清华大学等机构发布的技术报告,核心是首次公开的 Omni-Flow 流式全模态框架。该框架通过时分复用机制,将视觉、音频、语言等多模态信息流对齐到毫秒级时间片,实现模型持续感知和即时反应的全双工交互能力。MiniCPM-o 4.5 总参数量 9B,采用端到端全模态

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数端到端全双工全模态交互,RTX5070 即可本地运行。

📝 详细摘要

本文是 AI 前线对 MiniCPM-o 4.5 技术报告发布的报道。文章介绍了面壁智能联合 OpenBMB 开源社区、清华大学等机构发布的技术报告,核心是首次公开的 Omni-Flow 流式全模态框架。该框架通过时分复用机制,将视觉、音频、语言等多模态信息流对齐到毫秒级时间片,实现模型持续感知和即时反应的全双工交互能力。MiniCPM-o 4.5 总参数量 9B,采用端到端全模态架构,包含视觉编码器、音频编码器、LLM 基座、语音 Token 解码器和声码器。其 INT4 量化版仅需 12GB 显存即可运行,解码速度达 212 tokens/s。在多个基准测试中,MiniCPM-o 4.5 的综合视觉能力与 Gemini 2.5 Flash 相当,全模态交互能力全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。文章还介绍了同步开放的在线 Demo、全模态全双工 API、端侧安装包 Comni 和 Demo 仓库,并展望了在主动式伴侣、无障碍辅助、智能座舱、具身智能等场景的应用潜力。

💡 主要观点

- MiniCPM-o 4.5 首次公开 Omni-Flow 流式全模态框架,实现端到端全双工交互。 Omni-Flow 通过时分复用机制将多模态信息流对齐到毫秒级时间片,模型在每个时间片内完成感知-思考-响应循环,原生支持打断和插话,摆脱了对外部 VAD 的依赖。

9B 参数模型在消费级显卡上即可运行,INT4 量化版仅需 12GB 显存。 MiniCPM-o 4.5 的 INT4 量化版显存需求仅为 Qwen3-Omni INT4 版本的一半,解码速度达 212 tokens/s,比 Qwen3 快 40% 以上,极大降低了端侧部署门槛。
模型在多项基准测试中与 Gemini 2.5 Flash 等大模型表现相当或更优。 在 OpenCompass、MMBench 等视觉基准上与 Gemini 2.5 Flash 相当,在全模态交互基准上全面超越 Gemini 2.5 Flash 和 Qwen3-Omni,在全双工视频理解基准 LiveSports-3K-CC 上胜率达 54.4%。

💬 文章金句

- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应。

  • Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。
  • LLM 基座只生成文本 Token,而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。
  • 全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用。

📊 文章信息

AI 初评:86

来源:AI前线

作者:AI前线

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4058

标签: MiniCPM-o 4.5, 全双工, 全模态, Omni-Flow, 端侧部署

阅读完整文章

查看原文 → 發佈: 2026-04-30 10:32:00 收錄: 2026-04-30 18:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。