← 回總覽

编程权威榜单:千问 3.7 仅次于 Claude,阿里全球第二

📅 2026-05-26 13:32 量子位的朋友们 人工智能 2 分鐘 1320 字 評分: 85
Qwen3.7-Max Code Arena 阿里云 编程能力 大模型评测
📌 一句话摘要 阿里最新旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分超越 GPT-5.5 等模型,仅次于 Claude 系列,排名全球第二,标志着国产大模型在编程领域跻身第一梯队。 📝 详细摘要 文章报道了阿里云最新旗舰模型 Qwen3.7-Max 在第三方编程榜单 Code Arena 上取得的突破性成绩。该模型以 1541 分超越 GPT-5.5、Gemini-3.5-Flash 等模型,仅次于 Claude 系列,排名全球第二。Code Arena 以其开发者出题、用户盲测投票的机制,被认为是目前最具公信力的 AI 编程能力评测之一。文章

📌 一句话摘要

阿里最新旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分超越 GPT-5.5 等模型,仅次于 Claude 系列,排名全球第二,标志着国产大模型在编程领域跻身第一梯队。

📝 详细摘要

文章报道了阿里云最新旗舰模型 Qwen3.7-Max 在第三方编程榜单 Code Arena 上取得的突破性成绩。该模型以 1541 分超越 GPT-5.5、Gemini-3.5-Flash 等模型,仅次于 Claude 系列,排名全球第二。Code Arena 以其开发者出题、用户盲测投票的机制,被认为是目前最具公信力的 AI 编程能力评测之一。文章指出,面向 Agent 打造的 Qwen3.7-Max 在编程、智能体和长程任务上实现大幅突破,能够独立完成复杂项目,并持续运行 35 小时。该模型发布后获得了全球开发者的积极反馈,被认为在性能提升和推理成本上具有优势。

💡 主要观点

- Qwen3.7-Max 在 Code Arena 榜单上排名全球第二,仅次于 Claude 系列。 该模型以 1541 分超越了 GPT-5.5、Gemini-3.5-Flash 等主流模型,成为榜单中唯一突破 1540 分的国产大模型,打破了由 Claude 系列主导的前四格局。

Code Arena 榜单通过开发者出题和用户盲测投票,具有较高公信力。 与传统的代码基准测试不同,该榜单要求模型从零生成完整的 Web 应用,并由用户对匿名模型进行两两 PK 投票,更能反映模型的真实编程能力。
Qwen3.7-Max 在 Agent 能力和长程任务上实现突破。 该模型面向 Agent 打造,能够独立完成复杂项目,并持续运行 35 小时、执行超 1000 次工具调用,在办公自动化和企业级生产力方面有显著提升。

💬 文章金句

- Code Arena 也被认为是目前全球最具公信力的 AI 编程能力评测之一。

  • Qwen3.7-Max 也成为目前榜单中唯一突破 1540 分大关的国产大模型。
  • 多位开发者评价其「长程自主执行能力令人印象深刻」「是真正能把事情做完的智能体基座模型」。

📊 文章信息

AI 初评:85

来源:量子位

作者:量子位的朋友们

分类:人工智能

语言:中文

阅读时间:4 分钟

字数:877

标签: Qwen3.7-Max, Code Arena, 阿里云, 编程能力, 大模型评测

阅读完整文章

查看原文 → 發佈: 2026-05-26 13:32:12 收錄: 2026-05-26 16:00:36

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。