ChatGPT 那一套要过时了？翁荔实测创业首个模型，回合制 AI 被“原生实时交互”秒了

📌 一句话摘要

前 OpenAI 核心团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small，以 2760 亿参数 MoE 架构和 200 毫秒级微回合设计，实现了全双工实时交互，在响应速度和交互质量上显著超越现有实时系统。

📝 详细摘要

本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型由前 OpenAI CTO Mira Murati、联合创始人 John Schulman 等人创立的团队打造，采用 2760 亿参数的混合专家（MoE）架构，活跃参数 120 亿。其核心创新在于放弃了传统的回合制交互模式，通过多流、微回合（micro-turn）设计，以 200 毫秒为单位同时处理输入和输出，实现了全双工实时交互。模型具备语言与视觉的即时插话、同时语音、时间感知、并行工具调用等能力，在 FD-bench 交互质量基准上得分 77.8，远超 GPT-realtime-2.0 minimal 的 46.8，轮次响应延迟仅 0.40 秒。技术上采用无编码器的早期融合架构，并设计了交互模型与后台模型的双系统分工，以平衡实时响应与深度推理。文章还探讨了该模型在企业监控、语音客服、时间敏感流程等场景的潜在应用价值。

💡 主要观点

- TML-Interaction-Small 采用原生全双工架构，实现 200 毫秒级实时交互。 通过多流、微回合设计替代标准交替式 token 序列，模型能以 200 毫秒为单位同时处理输入和输出，支持即时插话、同时语音和时间感知等能力，彻底突破回合制交互限制。

交互模型与后台模型的双系统分工平衡了实时性与深度推理。 交互模型负责持续对话管理和即时响应，后台模型异步处理复杂推理、网页浏览等任务，将结果流式传回交互模型，既保证低延迟又保留完整智能能力。

模型在交互质量和响应速度上显著超越现有实时系统。 在 FD-bench 交互基准上得分 77.8，是 GPT-realtime-2.0 minimal 的 1.7 倍；轮次响应延迟 0.40 秒，优于 Gemini-3.1-flash-live 的 0.57 秒和 GPT-realtime-2.0 minimal 的 1.18 秒。

无编码器的早期融合架构降低了系统复杂度。 通过轻量级嵌入层直接处理原始音频信号和图像块，在 Transformer 架构中联合训练所有组件，无需依赖 Whisper 等庞大独立编码器。

💬 文章金句

- 如果 AI 真正要承担那些需要自然交互的工作，它就必须超越这种「回合制」的交互方式。

整体体验更像是在协作，而不是在'下提示词'。
通过将'交互性'内化为模型的一部分，模型规模的扩展将不仅让其更聪明，也会让它成为更高效的协作伙伴。
当前的前沿模型通常以单线程方式体验现实。它们会等待用户完成输入后才开始处理，并且在生成回应时，其'感知'是冻结的。

📊 文章信息

AI 初评：88

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3879

标签： Thinking Machines, 交互模型, 实时交互, MoE, 全双工

阅读完整文章

ChatGPT 那一套要过时了？翁荔实测创业首个模型，回合制 AI 被“原生实时交互”秒了

🤖 問 AI