← 回總覽

ChatGPT 那一套要过时了?翁荔实测创业首个模型,回合制 AI 被“原生实时交互”秒了

📅 2026-05-12 13:05 AI前线 人工智能 2 分鐘 1449 字 評分: 86
Thinking Machines 交互模型 实时对话 全双工 MoE
📌 一句话摘要 前 OpenAI 团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small,以 200 毫秒微回合架构实现全双工实时对话,在交互质量和响应速度上显著超越现有实时系统。 📝 详细摘要 本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型拥有 2760 亿参数(120 亿活跃参数),采用混合专家架构,从零开始训练,放弃了传统的交替式 token 序列,转而使用多流、微回合设计,以 200 毫秒为单位同时处理输入和输出。模型具备即时插话、同时语音、时间

📌 一句话摘要

前 OpenAI 团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small,以 200 毫秒微回合架构实现全双工实时对话,在交互质量和响应速度上显著超越现有实时系统。

📝 详细摘要

本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型拥有 2760 亿参数(120 亿活跃参数),采用混合专家架构,从零开始训练,放弃了传统的交替式 token 序列,转而使用多流、微回合设计,以 200 毫秒为单位同时处理输入和输出。模型具备即时插话、同时语音、时间感知和并行工具调用等原生交互能力,无需外部脚手架。在 FD-bench 交互基准上得分 77.8,是 GPT-realtime-2.0 minimal(46.8)的近两倍;轮次响应延迟仅 0.40 秒,优于 Gemini-3.1-flash-live 的 0.57 秒。文章还介绍了其无编码器早期融合的技术架构,以及交互模型与后台模型协同工作的系统设计。文章最后探讨了该模型在企业监控、语音客服和工业维护等场景的潜在价值。

💡 主要观点

- TML-Interaction-Small 是首个原生交互模型,实现了全双工实时对话。 模型采用多流微回合架构,以 200 毫秒为单位同时处理输入和输出,支持即时插话、同时语音和时间感知,无需外部脚手架,从根本上超越了传统的回合制交互模式。

模型在交互质量和响应速度上显著领先现有实时系统。 在 FD-bench 交互基准上得分 77.8,是 GPT-realtime-2.0 minimal(46.8)的近两倍;轮次响应延迟仅 0.40 秒,优于 Gemini-3.1-flash-live 的 0.57 秒和 GPT-realtime-2.0 minimal 的 1.18 秒。
采用交互模型与后台模型协同的系统架构,平衡实时响应与深度推理。 交互模型负责持续对话和即时响应,后台模型异步处理复杂推理、网页浏览和工具调用,两者协同工作,使用户既能获得低延迟交互体验,又能享受完整的智能能力。

💬 文章金句

- 如果 AI 真正要承担那些需要自然交互的工作,它就必须超越这种「回合制」的交互方式。

  • 整体体验更像是在协作,而不是在'下提示词'。
  • 通过将'交互性'内化为模型的一部分,模型规模的扩展将不仅让其更聪明,也会让它成为更高效的协作伙伴。

📊 文章信息

AI 初评:86

来源:AI前线

作者:AI前线

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4151

标签: Thinking Machines, 交互模型, 实时对话, 全双工, MoE

阅读完整文章

查看原文 → 發佈: 2026-05-12 13:05:00 收錄: 2026-05-12 20:00:14

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。