Claude Code 生成 13 种编程语言代码基准测试：动态语言更快更省成本

📌 一句话摘要

Ruby 代码提交者远藤裕介对 Claude Code 的基准测试显示，在生成约 200 行代码的原型时，Ruby、Python、JavaScript 等动态语言在速度和成本上显著优于 Go、Rust 等静态类型语言，且添加类型检查会进一步增加开销。

📝 详细摘要

本文报道了 Ruby 核心提交者远藤裕介（Yusuke Endoh）对 Anthropic Claude Code（Opus 4.6）进行的一项基准测试。该测试要求模型用 13 种编程语言实现一个简化版 Git，每种语言运行 20 次，共进行 600 多次测试。结果显示，动态语言（Ruby、Python、JavaScript）在生成速度和成本上表现最佳，平均耗时约 73-81 秒，成本约 0.36-0.39 美元，且结果稳定。静态类型语言（如 Go、Rust、C）则慢 1.4 至 2.6 倍，成本更高，且结果方差更大。测试还发现，为动态语言添加类型检查（如 Python 用 mypy，Ruby 用 Steep）会显著拖慢生成速度。文章也讨论了实验的局限性（如代码规模较小）和社区的不同观点（如类型系统对长期维护的价值）。

💡 主要观点

- 在 AI 生成小型原型代码时，动态语言在速度和成本上具有显著优势。 基准测试显示，Ruby、Python、JavaScript 生成代码最快（约 73-81 秒）、成本最低（约 0.36-0.39 美元），且全部通过测试。而 Go、Rust、C 等静态语言则更慢、更贵，且结果波动更大。

类型系统会增加 AI 生成代码的开销，动态语言添加类型检查会显著降低速度。 在 Python 中添加 mypy 严格类型检查，速度降低 1.6-1.7 倍；在 Ruby 中添加 Steep 类型检查，速度降低 2.0-3.2 倍。TypeScript 的成本也明显高于纯 JavaScript。开销可能源于生成类型注解和模型推理类型约束消耗的额外思考词元。

该基准测试结论存在局限性，主要适用于小型原型代码生成场景。 实验生成的程序约 200 行，属于原型规模。作者和社区评论均指出，静态类型语言在大型代码库的可维护性、错误预防方面可能具有优势，且实验未考虑语言生态（如库依赖）对实际生成代码量的影响。

AI 辅助开发中，生成速度的差异对开发者心流状态有实际影响。 作者认为，在迭代式开发中，等待 30 秒与 60 秒的差异对开发者体验影响显著。不过，如果未来模型生成时间缩短至秒级，这种差异的重要性会下降。

💬 文章金句

- 动态语言（尤其是 Ruby、Python 和 JavaScript）始终是速度更快、成本更低且更稳定的选择，而静态类型语言的运行速度要慢 1.4 至 2.6 倍，成本也更高。

类型系统对 AI 生成代码的影响或许是对评估 AI 编码工作流的团队最具实用价值的发现。
在 Python 中添加 mypy 严格类型检查会使其速度降低 1.6 至 1.7 倍；在 Ruby 中添加 Steep 类型检查则会带来更大的性能损耗，速度比纯 Ruby 慢 2.0 至 3.2 倍。
该实验还得到了 Anthropic 的 Claude 开源计划支持，获得了为期六个月的 Claude Max 免费使用权限。此次基准测试仅衡量代码生成的成本与速度，不涉及代码质量、可维护性或运行时性能。
关于规模问题，他认同更大型的基准测试会更有价值，但也指出，设计一套对 15 种语言都公平的测试难度较大。

📊 文章信息

AI 初评：87

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1757

标签： Claude Code, AI 编程, 基准测试, 编程语言, 代码生成

阅读完整文章

Claude Code 生成 13 种编程语言代码基准测试：动态语言更快更省成本

🤖 問 AI