← 回總覽

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070 即可实时运行

📅 2026-04-28 13:10 AI科技评论 人工智能 2 分鐘 1696 字 評分: 85
MiniCPM-o 4.5 全双工全模态 Omni-Flow 面壁智能 端侧AI
📌 一句话摘要 面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数下的端到端全双工全模态交互,并开放 API、端侧安装包及 Demo 源码。 📝 详细摘要 本文是 AI 科技评论对 MiniCPM-o 4.5 技术报告发布的报道。文章首先介绍了 MiniCPM-o 4.5 的核心突破:业界首个端到端全双工全模态大模型,仅 9B 参数即可在消费级显卡上实现实时、连续的视觉、听觉和语音交互。文章详细解读了其核心技术 Omni-Flow 流式全模态框架,该框架通过时分复用机制将多模态信息流对齐到毫秒级时间片,实现持续感知

📌 一句话摘要

面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数下的端到端全双工全模态交互,并开放 API、端侧安装包及 Demo 源码。

📝 详细摘要

本文是 AI 科技评论对 MiniCPM-o 4.5 技术报告发布的报道。文章首先介绍了 MiniCPM-o 4.5 的核心突破:业界首个端到端全双工全模态大模型,仅 9B 参数即可在消费级显卡上实现实时、连续的视觉、听觉和语音交互。文章详细解读了其核心技术 Omni-Flow 流式全模态框架,该框架通过时分复用机制将多模态信息流对齐到毫秒级时间片,实现持续感知与即时响应。文章还介绍了其端到端架构设计,包括视觉编码器、音频编码器、LLM 基座和轻量级语音解码器的协同工作方式,以及 TAIL 语音生成方案。文章展示了模型在推理效率、综合视觉能力、全双工交互和语音生成等多个维度的性能表现,并与 Gemini 2.5 Flash、Qwen3-Omni 等模型进行了对比。最后,文章探讨了全双工全模态模型在主动式伴侣、无障碍辅助、智能座舱和具身智能等场景的应用潜力。

💡 主要观点

- MiniCPM-o 4.5 实现了业界首个端到端全双工全模态大模型。 该模型能持续感知环境(看视频、听声音)的同时进行思考和响应,支持打断、插话等高级交互行为,摆脱了对外部 VAD 的依赖。

Omni-Flow 流式全模态框架是全双工能力的核心技术。 该框架通过时分复用机制,将视觉、音频和语言等信息流对齐到毫秒级时间片上,在每个时间片内完成一次感知-思考-响应循环,实现持续感知和即时反应。
9B 参数模型在消费级显卡上即可运行,推理效率显著优于同类模型。 INT4 量化版仅需 11GB 显存,RTX 5070 即可流畅运行全双工模式,解码速度达 212 tokens/s,比 Qwen3-Omni 快 40% 以上。
模型在多项基准测试中与 SOTA 大模型表现相当或更优。 在综合视觉能力上与 Gemini 2.5 Flash 相当,在全模态与全双工交互基准上全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。

💬 文章金句

- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应,这让 AI 从一个被动的工具变成了一个可以主动帮助人类的真正助手。

  • Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。模型不再是被动地等待用户输入完成,而是以极高的频率持续刷新自己的「世界观」。
  • LLM 基座只生成文本 Token,而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。这避免了让大模型直接处理复杂的声学任务,从而保证了其核心的语言和推理能力不受损害。
  • 全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用,例如主动式伴侣、无障碍辅助、智能座舱、具身智能。

📊 文章信息

AI 初评:85

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3999

标签: MiniCPM-o 4.5, 全双工全模态, Omni-Flow, 面壁智能, 端侧AI

阅读完整文章

查看原文 → 發佈: 2026-04-28 13:10:00 收錄: 2026-04-29 00:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。