本文实测了 Qwen3.7 Max 在 Vibe Coding 场景下的表现,并与 DeepSeek、Claude、GPT、Gemini 等模型进行对比,探讨了模型能力与 Agent 架构结合的重要性。
📝 详细摘要
文章以 Qwen3.7 Max 在编程竞技榜上超越 GPT-5.5 等模型、拿下全球第二名为切入点,通过多个前端网页生成任务(液体模拟、六边形 2048 游戏、地铁博物馆网站、浏览器操作系统),对 Qwen3.7 Max、DeepSeek V4、Claude Opus 4.7、GPT-5.5、Gemini 3.5 Flash 五大模型进行了横向实测对比。测试结果显示,Qwen3.7 Max 在简单提示词下的表现并不总是最优,但在详细提示词或接入 Codex Agent 后,其能力得到显著释放。文章还详细记录了将 Qwen3.7 Max 接入 Codex 的配置过程及遇到的 API 兼容性问题,最终指出单靠模型能力已不足以定义优秀产品,记忆、Agent 编排、工具调用等架构层面的整合才是关键。
💡 主要观点
- Qwen3.7 Max 在编程竞技榜上排名第二,但实测表现受提示词质量影响显著。 在简单提示词下,Qwen3.7 Max 的表现并不总是优于 GPT-5.5 或 Gemini 3.5 Flash,但在详细提示词或接入 Agent 后,其能力得到更好释放,说明提示词工程仍是关键瓶颈。
💬 文章金句
- 去年我们还在说模型即产品,一个足够好的模型就是一个好产品,现在看来,单靠模型是远远不够的。
- 记忆、Harness、Agents 编排、验证、推理的可持续性等等,随着模型能力的增加,这套架构也在持续扩充,但只有都做好了,我们或许才愿意说「这是一个好模型」。
- 不是你配置错了,而是 Qwen3.7 Max / 百炼 Responses API 对 Codex agent 工具调用还不够稳。能对话不代表能稳定跑 Codex,长任务、改代码、频繁读文件时,切回 OpenAI 官方模型会稳定很多。
📊 文章信息
AI 初评:85
来源:爱范儿
作者:张子豪
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3400
标签: Qwen3.7 Max, Vibe Coding, AI 编程, Codex, 模型评测