千问发布面向智能体时代的新一代旗舰模型 Qwen3.7-Max,在编程、办公自动化、长周期自主执行等多项基准测试中取得领先表现,并通过环境扩展和跨框架泛化能力强化其智能体底座定位。
📝 详细摘要
千问正式发布 Qwen3.7-Max,定位为面向智能体时代的全能旗舰模型。文章详细介绍了该模型在编程智能体、通用智能体、推理、通用能力与多语言等多个维度的评测表现,在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上均取得领先或与顶级模型相当的成绩。核心技术创新包括环境扩展方法,通过多样化的训练环境实现智能体能力的泛化,以及跨框架泛化能力,通过解耦任务、运行框架与验证器进行组合式扩展和跨框架强化学习训练。文章通过三个实战案例展示了模型能力:在 35 小时自主内核优化中实现 10 倍加速、在长程 RL 训练中自主监控奖励作弊并进化检测规则、在模拟经营场景中展现长程规划与执行能力。此外还展示了前端编程、办公助手和物理世界智能体等应用场景。模型即将通过阿里云百炼 API 提供服务。
💡 主要观点
- Qwen3.7-Max 在编程、通用智能体、推理等多个基准测试中取得领先表现。 在 SWE-Pro、MCP-Mark、GPQA Diamond 等基准上超越或接近 Opus-4.6 Max、DS-V4-Pro Max 等顶级模型,展现出全面的能力提升。
💬 文章金句
- Qwen3.7-Max 致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程,还是在跨越数百乃至数千步的长周期任务中持续自主执行,都能胜任。
- 我们发现智能体能力同样可以从多样化的训练环境中实现泛化。
- 这种解耦设计实现了组合式扩展:同一任务能以极低的边际成本,与不同类型、不同版本的框架及验证器相匹配。
- 模型在超过一千次工具调用中保持连贯的优化策略,不丢失上下文、不退化。
- Qwen3.7-Max 是我们迄今最全面、最强大的智能体模型。
📊 文章信息
AI 初评:87
来源:阿里研究院
作者:阿里研究院
分类:人工智能
语言:中文
阅读时间:22 分钟
字数:5333
标签: Qwen3.7-Max, 千问, 智能体, 大语言模型, AI Agent