面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数下的端到端全双工多模态交互,并开放 API 与端侧安装包。
📝 详细摘要
本文报道了面壁智能联合清华大学等机构发布 MiniCPM-o 4.5 技术报告的消息。该模型仅 9B 参数,通过创新的 Omni-Flow 流式全模态框架,实现了业界首个端到端全双工全模态交互,即模型能持续感知环境(看视频、听声音)的同时进行思考和响应。文章详细解读了其端到端架构(视觉编码器、音频编码器、LLM 基座、语音解码器)、TAIL 语音生成方案,并展示了其在推理效率、视觉理解、全双工交互和语音生成等多个维度的性能评测结果,表现与 Gemini 2.5 Flash 等大模型相当。同时,文章宣布开放全模态全双工 API、提供 Windows/macOS 端侧安装包 Comni(最低 12GB 显存),并开源了 Demo 仓库,旨在推动全双工 AI 交互在智能座舱、无障碍辅助等场景的落地。
💡 主要观点
- MiniCPM-o 4.5 实现了 9B 参数下的端到端全双工全模态交互。 通过 Omni-Flow 框架,模型能在持续感知视觉和音频输入的同时进行思考和响应,支持打断、插话等高级交互,摆脱了对外部 VAD 的依赖。
💬 文章金句
- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应。
- Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。
- 全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用,例如主动式伴侣、无障碍辅助、智能座舱和具身智能。
📊 文章信息
AI 初评:86
来源:AINLP
作者:AINLP
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3949
标签: MiniCPM-o 4.5, 全双工, 全模态, Omni-Flow, 端侧部署