翁荔创业大模型首秀！告别“120 亿美元估值 0 模型”

📌 一句话摘要

Thinking Machines Lab 发布首个交互模型 TML-Interaction-Small，通过 200ms 微回合机制和双模型架构，将实时交互能力原生融入模型，告别回合制 AI。

📝 详细摘要

本文报道了由 OpenAI 前 CTO Mira Murati 创办的 Thinking Machines Lab（TML）发布的首个模型 TML-Interaction-Small。该模型的核心创新在于将实时交互能力从外部组件（如 VAD、TTS）的拼接，推进到模型本体。其关键机制是将连续音频、视频、文本都切成 200ms 的微回合，让输入和输出在时间上交错输入同一个模型，实现边听边想边做。架构上采用前台模型（即时响应）与后台模型（长推理、工具调用）协同工作。训练上采用 encoder-free early fusion，音频编码使用轻量级 dMel 和 embedding 层，图像切成 patch 编码，所有组件与 Transformer 从头共同训练。工程上通过 streaming sessions 将客户端请求追加到 GPU memory 的 persistent sequence 中，避免反复重分配，相关功能已发布到 SGLang。该模型为 276B 参数 MoE、12B 激活参数，响应延迟比 GPT-realtime-2.0 快 4 倍，交互质量领先，但模型智力仍不及 GPT-2.0 xhigh 模式。文章还回顾了 TML 的团队构成（约 140 人，从 Meta 挖人最多）、算力合作（英伟达、谷歌）以及其技术路线的整体布局。

💡 主要观点

- TML 发布首个模型 TML-Interaction-Small，将实时交互能力原生融入模型。 该模型通过 200ms 微回合机制，让输入输出交错处理，实现边听边想边做，告别传统回合制 AI 交互，响应延迟比 GPT-realtime-2.0 快 4 倍。

模型采用双架构协同：前台模型即时响应，后台模型处理长推理和工具调用。 前台模型持续接收新输入并维持上下文，后台模型异步执行复杂任务，结果流式回传，由前台在合适时机插入对话，实现流畅的实时协作。

训练采用 encoder-free early fusion，所有模态组件与 Transformer 从头共同训练。 音频编码使用轻量级 dMel 和 embedding 层，图像切成 patch 编码，音频输出用 flow head 解码，所有组件共享一个实时互动语境，避免外部组件拼接的局限。

TML 的技术路线完整展现：从低延迟推理系统到多模态实时输入输出，再到大规模算力部署。 200ms 响应需要低延迟推理系统，双模型需要稳定训练和工具链，多模态实时输出需要更强底座，更大规模模型需要 GB300、Vera Rubin 等算力，TML 已与英伟达和谷歌达成合作。

💬 文章金句

- AI 再也不是'回合制'了。

把语音助手、视频理解和 Agent 协作放到同一个框架里解决。
这些拼接出来的系统，长期看会被通用能力的扩展给追平甚至超越。
让接口去适应人，而不是反过来让人去迁就接口。
TML 想赌的，是下一个人机协作界面。

📊 文章信息

AI 初评：86

来源：创业邦

作者：创业邦

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2431

标签： Thinking Machines Lab, TML-Interaction-Small, 实时交互, 多模态模型, MoE

阅读完整文章

翁荔创业大模型首秀！告别“120 亿美元估值 0 模型”

🤖 問 AI