Thinking Machines Lab 发布首个交互模型 TML-Interaction-Small,通过 200ms 微回合机制和双模型架构,将实时交互能力原生融入模型,告别回合制 AI。
📝 详细摘要
本文报道了由 OpenAI 前 CTO Mira Murati 创办的 Thinking Machines Lab(TML)发布的首个模型 TML-Interaction-Small。该模型的核心创新在于将实时交互能力从外部组件(如 VAD、TTS)的拼接,推进到模型本体。其关键机制是将连续音频、视频、文本都切成 200ms 的微回合,让输入和输出在时间上交错输入同一个模型,实现边听边想边做。架构上采用前台模型(即时响应)与后台模型(长推理、工具调用)协同工作。训练上采用 encoder-free early fusion,音频编码使用轻量级 dMel 和 embedding 层,图像切成 patch 编码,所有组件与 Transformer 从头共同训练。工程上通过 streaming sessions 将客户端请求追加到 GPU memory 的 persistent sequence 中,避免反复重分配,相关功能已发布到 SGLang。该模型为 276B 参数 MoE、12B 激活参数,响应延迟比 GPT-realtime-2.0 快 4 倍,交互质量领先,但模型智力仍不及 GPT-2.0 xhigh 模式。文章还回顾了 TML 的团队构成(约 140 人,从 Meta 挖人最多)、算力合作(英伟达、谷歌)以及其技术路线的整体布局。
💡 主要观点
- TML 发布首个模型 TML-Interaction-Small,将实时交互能力原生融入模型。 该模型通过 200ms 微回合机制,让输入输出交错处理,实现边听边想边做,告别传统回合制 AI 交互,响应延迟比 GPT-realtime-2.0 快 4 倍。
💬 文章金句
- AI 再也不是'回合制'了。
- 把语音助手、视频理解和 Agent 协作放到同一个框架里解决。
- 这些拼接出来的系统,长期看会被通用能力的扩展给追平甚至超越。
- 让接口去适应人,而不是反过来让人去迁就接口。
- TML 想赌的,是下一个人机协作界面。
📊 文章信息
AI 初评:86
来源:创业邦
作者:创业邦
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2431
标签: Thinking Machines Lab, TML-Interaction-Small, 实时交互, 多模态模型, MoE