MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告，首次公开 Omni-Flow 流式全模态框架，实现 9B 参数下的端到端全双工全模态交互，并开放 API、端侧安装包及 Demo 源码。

📝 详细摘要

本文是 AI 科技评论对 MiniCPM-o 4.5 技术报告发布的报道。文章首先介绍了 MiniCPM-o 4.5 的核心突破：业界首个端到端全双工全模态大模型，仅 9B 参数即可在消费级显卡上实现实时、连续的视觉、听觉和语音交互。文章详细解读了其核心技术 Omni-Flow 流式全模态框架，该框架通过时分复用机制将多模态信息流对齐到毫秒级时间片，实现持续感知与即时响应。文章还介绍了其端到端架构设计，包括视觉编码器、音频编码器、LLM 基座和轻量级语音解码器的协同工作方式，以及 TAIL 语音生成方案。文章展示了模型在推理效率、综合视觉能力、全双工交互和语音生成等多个维度的性能表现，并与 Gemini 2.5 Flash、Qwen3-Omni 等模型进行了对比。最后，文章探讨了全双工全模态模型在主动式伴侣、无障碍辅助、智能座舱和具身智能等场景的应用潜力。

💡 主要观点

- MiniCPM-o 4.5 实现了业界首个端到端全双工全模态大模型。 该模型能持续感知环境（看视频、听声音）的同时进行思考和响应，支持打断、插话等高级交互行为，摆脱了对外部 VAD 的依赖。

Omni-Flow 流式全模态框架是全双工能力的核心技术。 该框架通过时分复用机制，将视觉、音频和语言等信息流对齐到毫秒级时间片上，在每个时间片内完成一次感知-思考-响应循环，实现持续感知和即时反应。

9B 参数模型在消费级显卡上即可运行，推理效率显著优于同类模型。 INT4 量化版仅需 11GB 显存，RTX 5070 即可流畅运行全双工模式，解码速度达 212 tokens/s，比 Qwen3-Omni 快 40% 以上。

模型在多项基准测试中与 SOTA 大模型表现相当或更优。 在综合视觉能力上与 Gemini 2.5 Flash 相当，在全模态与全双工交互基准上全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。

💬 文章金句

- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」，模型能在持续感知环境（看视频、听声音）的同时进行思考和响应，这让 AI 从一个被动的工具变成了一个可以主动帮助人类的真正助手。

Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流，在时间上进行精确切片和对齐。模型不再是被动地等待用户输入完成，而是以极高的频率持续刷新自己的「世界观」。
LLM 基座只生成文本 Token，而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。这避免了让大模型直接处理复杂的声学任务，从而保证了其核心的语言和推理能力不受损害。
全双工全模态大模型不是一个遥远的概念，而是会催生一系列全新的应用，例如主动式伴侣、无障碍辅助、智能座舱、具身智能。

📊 文章信息

AI 初评：85

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3999

标签： MiniCPM-o 4.5, 全双工全模态, Omni-Flow, 面壁智能, 端侧AI

阅读完整文章

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

🤖 問 AI