面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数下的端到端全双工全模态交互,并开放 API、端侧安装包及 Demo 源码。
📝 详细摘要
本文是 AI 科技评论对 MiniCPM-o 4.5 技术报告发布的报道。文章首先介绍了 MiniCPM-o 4.5 的核心突破:业界首个端到端全双工全模态大模型,仅 9B 参数即可在消费级显卡上实现实时、连续的视觉、听觉和语音交互。文章详细解读了其核心技术 Omni-Flow 流式全模态框架,该框架通过时分复用机制将多模态信息流对齐到毫秒级时间片,实现持续感知与即时响应。文章还介绍了其端到端架构设计,包括视觉编码器、音频编码器、LLM 基座和轻量级语音解码器的协同工作方式,以及 TAIL 语音生成方案。文章展示了模型在推理效率、综合视觉能力、全双工交互和语音生成等多个维度的性能表现,并与 Gemini 2.5 Flash、Qwen3-Omni 等模型进行了对比。最后,文章探讨了全双工全模态模型在主动式伴侣、无障碍辅助、智能座舱和具身智能等场景的应用潜力。
💡 主要观点
- MiniCPM-o 4.5 实现了业界首个端到端全双工全模态大模型。 该模型能持续感知环境(看视频、听声音)的同时进行思考和响应,支持打断、插话等高级交互行为,摆脱了对外部 VAD 的依赖。
💬 文章金句
- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应,这让 AI 从一个被动的工具变成了一个可以主动帮助人类的真正助手。
- Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。模型不再是被动地等待用户输入完成,而是以极高的频率持续刷新自己的「世界观」。
- LLM 基座只生成文本 Token,而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。这避免了让大模型直接处理复杂的声学任务,从而保证了其核心的语言和推理能力不受损害。
- 全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用,例如主动式伴侣、无障碍辅助、智能座舱、具身智能。
📊 文章信息
AI 初评:85
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3999
标签: MiniCPM-o 4.5, 全双工全模态, Omni-Flow, 面壁智能, 端侧AI