GLM-5.2 如何在 Design Arena 中击败了 Fable 5

📌 一句话摘要

GLM-5.2 在 Design Arena 单轮 HTML 网页设计评测中击败 Claude Fable 5 等模型登顶，成为首款 MIT 授权的开源冠军模型，其成功源于避开常见编码错误、生成更精致的页面以及高效利用外部依赖。

📝 详细摘要

本文是 Design Arena 官方对 GLM-5.2 模型在网页设计评测中击败 Claude Fable 5、Opus 4.6/4.7 等模型的深度技术复盘。文章指出，GLM-5.2 以 744B 参数（无视觉能力）的规模，在非 Agentic 单轮 HTML 设计任务中拿下总分第一，成为首款登顶的开源模型（MIT 授权）。核心分析揭示了三个关键行为：1）输出高度模板化，但模板质量极高，避开了早期 AI 模型常见的反模式（如紫色渐变）；2）善于调用外部依赖（如 chart.js、three.js、TailwindCSS），代码可用性远超对手，在 21% 涉及外部库的会话中将胜率拉高 6 个百分点；3）生成更精致、细节更丰富的页面，但代价是生成时间约为 Fable 5 的两倍（平均 304.7 秒），在「偏好度 vs 速度」的 Pareto frontier 上偏向质量一侧。文章还指出，GLM-5.2 在游戏开发、数据可视化、3D 设计等子榜单上仍落后于 Fable 5，但在整体偏好度和性价比（每百万 token 1.40/4.40 美元 vs Fable 5 的 10/50 美元）上建立了新标杆。

💡 主要观点

- GLM-5.2 以更小的模型规模和极低的价格，在网页设计评测中击败了体量大 6.7 倍的闭源模型。 GLM-5.2 仅 744B 参数且无视觉能力，但通过 agent trace distillation 和 token 级优化，在单轮 HTML 设计任务中超越 Claude Fable 5，同时价格仅为后者的 1/7 到 1/11，树立了新的性价比标杆。

GLM-5.2 的成功关键在于代码可用性极高，能有效调用外部依赖。 模型在 91% 的会话中使用 TailwindCSS，51% 使用 font-awesome，并能正确调用 chart.js、three.js 等库，而其他模型常在这些库上出错。这使其在涉及外部库的 21% 会话中胜率提升 6 个百分点。

GLM-5.2 以生成时间换取输出质量，产出更精致但更慢的页面。 模型生成的代码量比对手多 25%，平均生成时间 304.7 秒（约为 Fable 5 的两倍），但页面在字体、动画、布局上更精细，用户偏好度更高。这是一种在「速度 vs 质量」上的明确取舍。

GLM-5.2 的输出高度模板化，但模板质量优于其他模型。 可视化分析显示，GLM-5.2 在不同提示词下容易产出相似的高质量模板，避免了早期 AI 模型常见的反模式。相比之下，Fable 5 的输出更分散多样，但当前用户更偏好 GLM-5.2 的「expert template」策略。

💬 文章金句

- GLM-5.2 不是在所有任务上都超越了 Fable 5。在游戏开发、数据可视化、3D 设计三个榜单上，它排第二，紧跟在 Fable 5 后面。

GLM-5.2 避开了大多数 AI 模型搞不定的常见错误，生成的网站更精细，还擅长做出比其他结果更受用户偏爱的页面结构。
GLM-5.2 大部分库都能一次就写出可用的代码，这让它在功能扩展上有更多空间。

📊 文章信息

AI 初评：88

来源：Draco正在VibeCoding

作者：Draco正在VibeCoding

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2098

标签： LLM, AI 编程, 模型评测与基准, 开源模型, AI 产品与应用

阅读完整文章

GLM-5.2 如何在 Design Arena 中击败了 Fable 5

🤖 問 AI