编程权威榜单：千问 3.7 仅次于 Claude，阿里全球第二

📌 一句话摘要

阿里最新旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分超越 GPT-5.5 等模型，仅次于 Claude 系列，排名全球第二，标志着国产大模型在编程领域跻身第一梯队。

📝 详细摘要

文章报道了阿里云最新旗舰模型 Qwen3.7-Max 在第三方编程榜单 Code Arena 上取得的突破性成绩。该模型以 1541 分超越 GPT-5.5、Gemini-3.5-Flash 等模型，仅次于 Claude 系列，排名全球第二。Code Arena 以其开发者出题、用户盲测投票的机制，被认为是目前最具公信力的 AI 编程能力评测之一。文章指出，面向 Agent 打造的 Qwen3.7-Max 在编程、智能体和长程任务上实现大幅突破，能够独立完成复杂项目，并持续运行 35 小时。该模型发布后获得了全球开发者的积极反馈，被认为在性能提升和推理成本上具有优势。

💡 主要观点

- Qwen3.7-Max 在 Code Arena 榜单上排名全球第二，仅次于 Claude 系列。 该模型以 1541 分超越了 GPT-5.5、Gemini-3.5-Flash 等主流模型，成为榜单中唯一突破 1540 分的国产大模型，打破了由 Claude 系列主导的前四格局。

Code Arena 榜单通过开发者出题和用户盲测投票，具有较高公信力。 与传统的代码基准测试不同，该榜单要求模型从零生成完整的 Web 应用，并由用户对匿名模型进行两两 PK 投票，更能反映模型的真实编程能力。

Qwen3.7-Max 在 Agent 能力和长程任务上实现突破。 该模型面向 Agent 打造，能够独立完成复杂项目，并持续运行 35 小时、执行超 1000 次工具调用，在办公自动化和企业级生产力方面有显著提升。

💬 文章金句

- Code Arena 也被认为是目前全球最具公信力的 AI 编程能力评测之一。

Qwen3.7-Max 也成为目前榜单中唯一突破 1540 分大关的国产大模型。
多位开发者评价其「长程自主执行能力令人印象深刻」「是真正能把事情做完的智能体基座模型」。

📊 文章信息

AI 初评：85

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：4 分钟

字数：877

标签： Qwen3.7-Max, Code Arena, 阿里云, 编程能力, 大模型评测

阅读完整文章

编程权威榜单：千问 3.7 仅次于 Claude，阿里全球第二

🤖 問 AI