← 回總覽

千问正式发布 Qwen3.7-Max

📅 2026-05-20 11:36 阿里研究院 人工智能 2 分鐘 1557 字 評分: 87
Qwen3.7-Max 千问 智能体 大语言模型 AI Agent
📌 一句话摘要 千问发布面向智能体时代的新一代旗舰模型 Qwen3.7-Max,在编程、办公自动化、长周期自主执行等多项基准测试中取得领先表现,并通过环境扩展和跨框架泛化能力强化其智能体底座定位。 📝 详细摘要 千问正式发布 Qwen3.7-Max,定位为面向智能体时代的全能旗舰模型。文章详细介绍了该模型在编程智能体、通用智能体、推理、通用能力与多语言等多个维度的评测表现,在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上均取得领先或与顶级模型相当的成绩。核心技术创新包括环境扩展方法,通过多样化的训练环境实现智能体能力的泛化,以及跨框架泛化能力,通过解耦任务、运行框架

📌 一句话摘要

千问发布面向智能体时代的新一代旗舰模型 Qwen3.7-Max,在编程、办公自动化、长周期自主执行等多项基准测试中取得领先表现,并通过环境扩展和跨框架泛化能力强化其智能体底座定位。

📝 详细摘要

千问正式发布 Qwen3.7-Max,定位为面向智能体时代的全能旗舰模型。文章详细介绍了该模型在编程智能体、通用智能体、推理、通用能力与多语言等多个维度的评测表现,在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上均取得领先或与顶级模型相当的成绩。核心技术创新包括环境扩展方法,通过多样化的训练环境实现智能体能力的泛化,以及跨框架泛化能力,通过解耦任务、运行框架与验证器进行组合式扩展和跨框架强化学习训练。文章通过三个实战案例展示了模型能力:在 35 小时自主内核优化中实现 10 倍加速、在长程 RL 训练中自主监控奖励作弊并进化检测规则、在模拟经营场景中展现长程规划与执行能力。此外还展示了前端编程、办公助手和物理世界智能体等应用场景。模型即将通过阿里云百炼 API 提供服务。

💡 主要观点

- Qwen3.7-Max 在编程、通用智能体、推理等多个基准测试中取得领先表现。 在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上超越或接近 Opus-4.6 Max、DS-V4-Pro Max 等顶级模型,展现出全面的能力提升。

环境扩展方法通过多样化训练环境实现智能体能力的泛化。 模型在训练中从未见过的领域外基准上仍表现优异,且性能增益高度可预测,表明环境扩展驱动的是真正的能力泛化而非针对特定基准的过拟合。
跨框架泛化能力通过解耦任务、运行框架与验证器实现。 模型在 Claude Code、OpenClaw、Qwen Code 等多种框架下均能稳定发挥,证实其已掌握解决任务的能力而非依赖特定框架的捷径。
35 小时自主内核优化实战展示了长程持续推理和 In-context 泛化能力。 模型在从未见过的硬件平台上自主编写、编译、性能分析并迭代改进 kernel,最终实现 10 倍加速,在超过 1000 次工具调用中保持连贯推理。

💬 文章金句

- Qwen3.7-Max 致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程,还是在跨越数百乃至数千步的长周期任务中持续自主执行,都能胜任。

  • 我们发现智能体能力同样可以从多样化的训练环境中实现泛化。
  • 这种解耦设计实现了组合式扩展:同一任务能以极低的边际成本,与不同类型、不同版本的框架及验证器相匹配。
  • 模型在超过一千次工具调用中保持连贯的优化策略,不丢失上下文、不退化。
  • Qwen3.7-Max 是我们迄今最全面、最强大的智能体模型。

📊 文章信息

AI 初评:87

来源:阿里研究院

作者:阿里研究院

分类:人工智能

语言:中文

阅读时间:22 分钟

字数:5333

标签: Qwen3.7-Max, 千问, 智能体, 大语言模型, AI Agent

阅读完整文章

查看原文 → 發佈: 2026-05-20 11:36:00 收錄: 2026-05-21 02:00:58

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。