阿里 Qwen 3.6 登顶 LMArena 编程榜，超越 GPT-5 成为中国最强编程模型

📌 一句话摘要

阿里最新发布的 Qwen 3.6-Plus 在 LMArena 编程盲测榜单中位列全球第二，超越 GPT-5.0，成为排名最高的中国大模型。

📝 详细摘要

文章报道了阿里巴巴新一代大语言模型 Qwen 3.6-Plus 在全球权威大模型盲测平台 LMArena（Code Arena）中的卓越表现。在最具挑战性的 React 专项榜单中，Qwen 3.6-Plus 以 1452 分位列全球第二，仅次于 Anthropic 的 Claude-Opus-4.6-Thinking，并成功超越了 OpenAI 的 GPT-5.0-High 和 Google 的 Gemini 3.1 Pro。该榜单侧重考察模型在真实复杂 Web 开发场景下的自主编码、工程思维及端到端 Agent 能力。Qwen 3.6-Plus 凭借原生多模态理解和推理能力，在多项编程评测中以更少的参数实现了更强的性能，标志着国产模型在 AI Coding 领域已达到全球顶尖水平。

💡 主要观点

- Qwen 3.6-Plus 在 LMArena 编程专项榜单中取得全球第二，创国产模型新高。 在 React 专项榜单中，Qwen 3.6-Plus 分数超越了 GPT-5.0 和 Gemini 3.1 Pro，仅次于 Claude-Opus-4.6，展现了极强的国际竞争力。

React 专项榜单代表了 AI Coding 领域最前沿的工程化测试方向。 该榜单不同于简单的代码补全，它要求模型具备完整的工程思维，能在无人辅助下独立完成从项目初始化到调试运行的全流程。

Qwen 3.6 系列在参数效率和 Agent 能力上实现显著突破。 新模型在多项评测中超越了参数量是其 2-3 倍的竞争对手，且阿里在全球 AI 实验室排名中已升至第四位。

💬 文章金句

- Qwen 3.6-Plus 登上全球榜单第二，超越 OpenAI、Google、xAI 等国际巨头，成为该榜单上排名最高的中国大模型。

React 专项榜单是目前 AI Coding 领域最前沿、挑战性最高的一个技术方向，旨在考察大模型在真实复杂 Web 开发场景下的自主编码能力。
阿里在全球 AI 实验室排名中升至第四，仅次于 Anthropic、OpenAI 和 Google。

📊 文章信息

AI 评分：87

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：4 分钟

字数：959

标签： Qwen 3.6, LMArena, AI 编程, 大模型榜单, 阿里巴巴

阅读完整文章

阿里 Qwen 3.6 登顶 LMArena 编程榜，超越 GPT-5 成为中国最强编程模型

🤖 問 AI