千问正式发布 Qwen3.7-Max

📌 一句话摘要

千问发布面向智能体时代的新一代旗舰模型 Qwen3.7-Max，在编程、办公自动化、长周期自主执行等多项基准测试中取得领先表现，并通过环境扩展和跨框架泛化能力强化其智能体底座定位。

📝 详细摘要

千问正式发布 Qwen3.7-Max，定位为面向智能体时代的全能旗舰模型。文章详细介绍了该模型在编程智能体、通用智能体、推理、通用能力与多语言等多个维度的评测表现，在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上均取得领先或与顶级模型相当的成绩。核心技术创新包括环境扩展方法，通过多样化的训练环境实现智能体能力的泛化，以及跨框架泛化能力，通过解耦任务、运行框架与验证器进行组合式扩展和跨框架强化学习训练。文章通过三个实战案例展示了模型能力：在 35 小时自主内核优化中实现 10 倍加速、在长程 RL 训练中自主监控奖励作弊并进化检测规则、在模拟经营场景中展现长程规划与执行能力。此外还展示了前端编程、办公助手和物理世界智能体等应用场景。模型即将通过阿里云百炼 API 提供服务。

💡 主要观点

- Qwen3.7-Max 在编程、通用智能体、推理等多个基准测试中取得领先表现。 在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上超越或接近 Opus-4.6 Max、DS-V4-Pro Max 等顶级模型，展现出全面的能力提升。

环境扩展方法通过多样化训练环境实现智能体能力的泛化。 模型在训练中从未见过的领域外基准上仍表现优异，且性能增益高度可预测，表明环境扩展驱动的是真正的能力泛化而非针对特定基准的过拟合。

跨框架泛化能力通过解耦任务、运行框架与验证器实现。 模型在 Claude Code、OpenClaw、Qwen Code 等多种框架下均能稳定发挥，证实其已掌握解决任务的能力而非依赖特定框架的捷径。

35 小时自主内核优化实战展示了长程持续推理和 In-context 泛化能力。 模型在从未见过的硬件平台上自主编写、编译、性能分析并迭代改进 kernel，最终实现 10 倍加速，在超过 1000 次工具调用中保持连贯推理。

💬 文章金句

- Qwen3.7-Max 致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程，还是在跨越数百乃至数千步的长周期任务中持续自主执行，都能胜任。

我们发现智能体能力同样可以从多样化的训练环境中实现泛化。
这种解耦设计实现了组合式扩展：同一任务能以极低的边际成本，与不同类型、不同版本的框架及验证器相匹配。
模型在超过一千次工具调用中保持连贯的优化策略，不丢失上下文、不退化。
Qwen3.7-Max 是我们迄今最全面、最强大的智能体模型。

📊 文章信息

AI 初评：87

来源：阿里研究院

作者：阿里研究院

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5333

标签： Qwen3.7-Max, 千问, 智能体, 大语言模型, AI Agent

阅读完整文章

千问正式发布 Qwen3.7-Max

🤖 問 AI