面壁智能联合清华大学发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架,实现 9B 参数端到端全双工全模态交互,RTX5070 即可本地运行。
📝 详细摘要
本文是 AI 前线对 MiniCPM-o 4.5 技术报告发布的报道。文章介绍了面壁智能联合 OpenBMB 开源社区、清华大学等机构发布的技术报告,核心是首次公开的 Omni-Flow 流式全模态框架。该框架通过时分复用机制,将视觉、音频、语言等多模态信息流对齐到毫秒级时间片,实现模型持续感知和即时反应的全双工交互能力。MiniCPM-o 4.5 总参数量 9B,采用端到端全模态架构,包含视觉编码器、音频编码器、LLM 基座、语音 Token 解码器和声码器。其 INT4 量化版仅需 12GB 显存即可运行,解码速度达 212 tokens/s。在多个基准测试中,MiniCPM-o 4.5 的综合视觉能力与 Gemini 2.5 Flash 相当,全模态交互能力全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。文章还介绍了同步开放的在线 Demo、全模态全双工 API、端侧安装包 Comni 和 Demo 仓库,并展望了在主动式伴侣、无障碍辅助、智能座舱、具身智能等场景的应用潜力。
💡 主要观点
- MiniCPM-o 4.5 首次公开 Omni-Flow 流式全模态框架,实现端到端全双工交互。 Omni-Flow 通过时分复用机制将多模态信息流对齐到毫秒级时间片,模型在每个时间片内完成感知-思考-响应循环,原生支持打断和插话,摆脱了对外部 VAD 的依赖。
💬 文章金句
- MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应。
- Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。
- LLM 基座只生成文本 Token,而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。
- 全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用。
📊 文章信息
AI 初评:86
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4058
标签: MiniCPM-o 4.5, 全双工, 全模态, Omni-Flow, 端侧部署