本文介绍了前 OpenAI CTO Mira 创立的 Thinking Machines 公司发布的全新 Interaction Model(交互模型),该模型通过 200 毫秒微轮次(micro-turn)机制实现全双工实时多模态交互,并采用前台实时模型加后台深度推理模型的双架构设计。
📝 详细摘要
文章详细解读了 Thinking Machines 公司发布的 TML-Interaction-Small 模型(276B MoE,每次激活 12B 参数)。该模型的核心创新在于将实时互动能力内建于模型本体,而非依赖外部脚手架。其关键设计包括:1)时间感知:将时间间隔作为连续状态编码进模型,使模型能感知 0.2 秒级的时间流逝;2)多模态实时流:音频、视频、文本三路数据并行处理,无需串行等待;3)micro-turn 机制:每 200 毫秒为一个处理单元,输入输出同时发生,实现全双工对话。为解决实时性与深度推理的矛盾,文章介绍了前台 Interaction Model(负责实时在场)与后台 Background Model(负责深度推理)的双模型架构,两者共享对话上下文。文章最后将 Thinking Machines 的路径与字节豆包进行了对比,指出豆包走的是现有组件深度集成的路线,而 Thinking Machines 是从模型架构层面原生设计实时协作底座。
💡 主要观点
- Interaction Model 通过 micro-turn 机制实现全双工实时交互。 模型将音频、视频、文本对齐到 200 毫秒一个的时间网格上,输入和输出在每个单元内同时发生,打破了传统 turn-based 的串行对话模式,实现面对面般的实时协作。
💬 文章金句
- Interaction Model 翻译过来就是交互模型,它想解决的是现在 AI 产品里的一个协作瓶颈。
- 时间间隔第一次作为一种连续状态被编码进了模型。
- 以前的模型跟我们打交道,像两个人通过语音消息聊天...交互模型则像两个人面对面坐着聊天,输入和输出可以同时发生,这叫全双工。
- 前台保持在场,后台保证深度,两件事不再互相牺牲。
- Thinking Machines 要做真正意义上的实时协作,就必须从模型架构层面重新设计一个原生支持的底座。
📊 文章信息
AI 初评:85
来源:AI产品阿颖
作者:阿颖
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3020
标签: Thinking Machines, Interaction Model, Mira, 实时多模态, 全双工