← 回總覽

OpenAI 前 CTO 做的新模型,在硅谷刷屏了。

📅 2026-05-12 16:28 阿颖 人工智能 2 分鐘 1605 字 評分: 85
Thinking Machines Interaction Model Mira 实时多模态 全双工
📌 一句话摘要 本文介绍了前 OpenAI CTO Mira 创立的 Thinking Machines 公司发布的全新 Interaction Model(交互模型),该模型通过 200 毫秒微轮次(micro-turn)机制实现全双工实时多模态交互,并采用前台实时模型加后台深度推理模型的双架构设计。 📝 详细摘要 文章详细解读了 Thinking Machines 公司发布的 TML-Interaction-Small 模型(276B MoE,每次激活 12B 参数)。该模型的核心创新在于将实时互动能力内建于模型本体,而非依赖外部脚手架。其关键设计包括:1)时间感知:将时间间隔作为连续

📌 一句话摘要

本文介绍了前 OpenAI CTO Mira 创立的 Thinking Machines 公司发布的全新 Interaction Model(交互模型),该模型通过 200 毫秒微轮次(micro-turn)机制实现全双工实时多模态交互,并采用前台实时模型加后台深度推理模型的双架构设计。

📝 详细摘要

文章详细解读了 Thinking Machines 公司发布的 TML-Interaction-Small 模型(276B MoE,每次激活 12B 参数)。该模型的核心创新在于将实时互动能力内建于模型本体,而非依赖外部脚手架。其关键设计包括:1)时间感知:将时间间隔作为连续状态编码进模型,使模型能感知 0.2 秒级的时间流逝;2)多模态实时流:音频、视频、文本三路数据并行处理,无需串行等待;3)micro-turn 机制:每 200 毫秒为一个处理单元,输入输出同时发生,实现全双工对话。为解决实时性与深度推理的矛盾,文章介绍了前台 Interaction Model(负责实时在场)与后台 Background Model(负责深度推理)的双模型架构,两者共享对话上下文。文章最后将 Thinking Machines 的路径与字节豆包进行了对比,指出豆包走的是现有组件深度集成的路线,而 Thinking Machines 是从模型架构层面原生设计实时协作底座。

💡 主要观点

- Interaction Model 通过 micro-turn 机制实现全双工实时交互。 模型将音频、视频、文本对齐到 200 毫秒一个的时间网格上,输入和输出在每个单元内同时发生,打破了传统 turn-based 的串行对话模式,实现面对面般的实时协作。

时间感知和多模态实时流是模型的两大核心创新。 模型将时间间隔作为连续状态编码进上下文,能感知 0.2 秒级的时间流逝;同时三路数据流并行处理,无需串行等待,在模型内部实现早期融合。
前台加后台的双模型架构解决了实时性与深度推理的矛盾。 前台 Interaction Model 负责低延迟实时在场,后台 Background Model 负责长时间推理和复杂规划,两者共享上下文,前台可在后台计算时继续交互,结果自然融入对话。

💬 文章金句

- Interaction Model 翻译过来就是交互模型,它想解决的是现在 AI 产品里的一个协作瓶颈。

  • 时间间隔第一次作为一种连续状态被编码进了模型。
  • 以前的模型跟我们打交道,像两个人通过语音消息聊天...交互模型则像两个人面对面坐着聊天,输入和输出可以同时发生,这叫全双工。
  • 前台保持在场,后台保证深度,两件事不再互相牺牲。
  • Thinking Machines 要做真正意义上的实时协作,就必须从模型架构层面重新设计一个原生支持的底座。

📊 文章信息

AI 初评:85

来源:AI产品阿颖

作者:阿颖

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3020

标签: Thinking Machines, Interaction Model, Mira, 实时多模态, 全双工

阅读完整文章

查看原文 → 發佈: 2026-05-12 16:28:00 收錄: 2026-05-13 00:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。