前 OpenAI 核心团队创立的 Thinking Machines 发布首个原生交互模型 TML-Interaction-Small,以 2760 亿参数 MoE 架构和 200 毫秒级微回合设计,实现了全双工实时交互,在响应速度和交互质量上显著超越现有实时系统。
📝 详细摘要
本文报道了 Thinking Machines 公司发布的首个原生交互模型 TML-Interaction-Small。该模型由前 OpenAI CTO Mira Murati、联合创始人 John Schulman 等人创立的团队打造,采用 2760 亿参数的混合专家(MoE)架构,活跃参数 120 亿。其核心创新在于放弃了传统的回合制交互模式,通过多流、微回合(micro-turn)设计,以 200 毫秒为单位同时处理输入和输出,实现了全双工实时交互。模型具备语言与视觉的即时插话、同时语音、时间感知、并行工具调用等能力,在 FD-bench 交互质量基准上得分 77.8,远超 GPT-realtime-2.0 minimal 的 46.8,轮次响应延迟仅 0.40 秒。技术上采用无编码器的早期融合架构,并设计了交互模型与后台模型的双系统分工,以平衡实时响应与深度推理。文章还探讨了该模型在企业监控、语音客服、时间敏感流程等场景的潜在应用价值。
💡 主要观点
- TML-Interaction-Small 采用原生全双工架构,实现 200 毫秒级实时交互。 通过多流、微回合设计替代标准交替式 token 序列,模型能以 200 毫秒为单位同时处理输入和输出,支持即时插话、同时语音和时间感知等能力,彻底突破回合制交互限制。
💬 文章金句
- 如果 AI 真正要承担那些需要自然交互的工作,它就必须超越这种「回合制」的交互方式。
- 整体体验更像是在协作,而不是在'下提示词'。
- 通过将'交互性'内化为模型的一部分,模型规模的扩展将不仅让其更聪明,也会让它成为更高效的协作伙伴。
- 当前的前沿模型通常以单线程方式体验现实。它们会等待用户完成输入后才开始处理,并且在生成回应时,其'感知'是冻结的。
📊 文章信息
AI 初评:88
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3879
标签: Thinking Machines, 交互模型, 实时交互, MoE, 全双工