ChatGPT 那一套要过时了？翁荔实测创业首个模型，回合制 AI 被“原生实时交互”秒了

📌 一句话摘要

前 OpenAI 团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small，以 200 毫秒微回合架构实现全双工实时对话，在交互质量和响应速度上显著超越现有实时系统。

📝 详细摘要

本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型拥有 2760 亿参数（120 亿活跃参数），采用混合专家架构，从零开始训练，放弃了传统的交替式 token 序列，转而使用多流、微回合设计，以 200 毫秒为单位同时处理输入和输出。模型具备即时插话、同时语音、时间感知和并行工具调用等原生交互能力，无需外部脚手架。在 FD-bench 交互基准上得分 77.8，是 GPT-realtime-2.0 minimal（46.8）的近两倍；轮次响应延迟仅 0.40 秒，优于 Gemini-3.1-flash-live 的 0.57 秒。文章还介绍了其无编码器早期融合的技术架构，以及交互模型与后台模型协同工作的系统设计。文章最后探讨了该模型在企业监控、语音客服和工业维护等场景的潜在价值。

💡 主要观点

- TML-Interaction-Small 是首个原生交互模型，实现了全双工实时对话。 模型采用多流微回合架构，以 200 毫秒为单位同时处理输入和输出，支持即时插话、同时语音和时间感知，无需外部脚手架，从根本上超越了传统的回合制交互模式。

模型在交互质量和响应速度上显著领先现有实时系统。 在 FD-bench 交互基准上得分 77.8，是 GPT-realtime-2.0 minimal（46.8）的近两倍；轮次响应延迟仅 0.40 秒，优于 Gemini-3.1-flash-live 的 0.57 秒和 GPT-realtime-2.0 minimal 的 1.18 秒。

采用交互模型与后台模型协同的系统架构，平衡实时响应与深度推理。 交互模型负责持续对话和即时响应，后台模型异步处理复杂推理、网页浏览和工具调用，两者协同工作，使用户既能获得低延迟交互体验，又能享受完整的智能能力。

💬 文章金句

- 如果 AI 真正要承担那些需要自然交互的工作，它就必须超越这种「回合制」的交互方式。

整体体验更像是在协作，而不是在'下提示词'。
通过将'交互性'内化为模型的一部分，模型规模的扩展将不仅让其更聪明，也会让它成为更高效的协作伙伴。

📊 文章信息

AI 初评：86

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4151

标签： Thinking Machines, 交互模型, 实时对话, 全双工, MoE

阅读完整文章

ChatGPT 那一套要过时了？翁荔实测创业首个模型，回合制 AI 被“原生实时交互”秒了

🤖 問 AI