← 回總覽

ChatGPT 那一套要过时了?翁荔实测创业首个模型,回合制 AI 被“原生实时交互”秒了

📅 2026-05-16 13:01 InfoQ 中文 人工智能 2 分鐘 1687 字 評分: 88
Thinking Machines 交互模型 实时交互 MoE 全双工
📌 一句话摘要 前 OpenAI 核心团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small,以 2760 亿参数 MoE 架构和 200 毫秒级微回合设计,实现了全双工实时交互,在响应速度和交互质量上显著超越现有实时系统。 📝 详细摘要 本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型由前 OpenAI CTO Mira Murati、联合创始人 John Schulman 等人创立的团队打造,采用 2760 亿参数的混合专家(MoE)架构,活跃参数 1

📌 一句话摘要

前 OpenAI 核心团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small,以 2760 亿参数 MoE 架构和 200 毫秒级微回合设计,实现了全双工实时交互,在响应速度和交互质量上显著超越现有实时系统。

📝 详细摘要

本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型由前 OpenAI CTO Mira Murati、联合创始人 John Schulman 等人创立的团队打造,采用 2760 亿参数的混合专家(MoE)架构,活跃参数 120 亿。其核心创新在于放弃了传统的回合制交互模式,通过多流、微回合(micro-turn)设计,以 200 毫秒为单位同时处理输入和输出,实现了全双工实时交互。模型具备语言与视觉的即时插话、同时语音、时间感知、并行工具调用等能力,在 FD-bench 交互质量基准上得分 77.8,远超 GPT-realtime-2.0 minimal 的 46.8,轮次响应延迟仅 0.40 秒。技术上采用无编码器的早期融合架构,并设计了交互模型与后台模型的双系统分工,以平衡实时响应与深度推理。文章还探讨了该模型在企业监控、语音客服、时间敏感流程等场景的潜在应用价值。

💡 主要观点

- TML-Interaction-Small 采用原生全双工架构,实现 200 毫秒级实时交互。 通过多流、微回合设计替代标准交替式 token 序列,模型能以 200 毫秒为单位同时处理输入和输出,支持即时插话、同时语音和时间感知等能力,彻底突破回合制交互限制。

交互模型与后台模型的双系统分工平衡了实时性与深度推理。 交互模型负责持续对话管理和即时响应,后台模型异步处理复杂推理、网页浏览等任务,将结果流式传回交互模型,既保证低延迟又保留完整智能能力。
模型在交互质量和响应速度上显著超越现有实时系统。 在 FD-bench 交互基准上得分 77.8,是 GPT-realtime-2.0 minimal 的 1.7 倍;轮次响应延迟 0.40 秒,优于 Gemini-3.1-flash-live 的 0.57 秒和 GPT-realtime-2.0 minimal 的 1.18 秒。
无编码器的早期融合架构降低了系统复杂度。 通过轻量级嵌入层直接处理原始音频信号和图像块,在 Transformer 架构中联合训练所有组件,无需依赖 Whisper 等庞大独立编码器。

💬 文章金句

- 如果 AI 真正要承担那些需要自然交互的工作,它就必须超越这种「回合制」的交互方式。

  • 整体体验更像是在协作,而不是在'下提示词'。
  • 通过将'交互性'内化为模型的一部分,模型规模的扩展将不仅让其更聪明,也会让它成为更高效的协作伙伴。
  • 当前的前沿模型通常以单线程方式体验现实。它们会等待用户完成输入后才开始处理,并且在生成回应时,其'感知'是冻结的。

📊 文章信息

AI 初评:88

来源:InfoQ 中文

作者:InfoQ 中文

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3879

标签: Thinking Machines, 交互模型, 实时交互, MoE, 全双工

阅读完整文章

查看原文 → 發佈: 2026-05-16 13:01:00 收錄: 2026-05-16 18:00:56

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。