Ruby 代码提交者远藤裕介对 Claude Code 的基准测试显示,在生成约 200 行代码的原型时,Ruby、Python、JavaScript 等动态语言在速度和成本上显著优于 Go、Rust 等静态类型语言,且添加类型检查会进一步增加开销。
📝 详细摘要
本文报道了 Ruby 核心提交者远藤裕介(Yusuke Endoh)对 Anthropic Claude Code(Opus 4.6)进行的一项基准测试。该测试要求模型用 13 种编程语言实现一个简化版 Git,每种语言运行 20 次,共进行 600 多次测试。结果显示,动态语言(Ruby、Python、JavaScript)在生成速度和成本上表现最佳,平均耗时约 73-81 秒,成本约 0.36-0.39 美元,且结果稳定。静态类型语言(如 Go、Rust、C)则慢 1.4 至 2.6 倍,成本更高,且结果方差更大。测试还发现,为动态语言添加类型检查(如 Python 用 mypy,Ruby 用 Steep)会显著拖慢生成速度。文章也讨论了实验的局限性(如代码规模较小)和社区的不同观点(如类型系统对长期维护的价值)。
💡 主要观点
- 在 AI 生成小型原型代码时,动态语言在速度和成本上具有显著优势。 基准测试显示,Ruby、Python、JavaScript 生成代码最快(约 73-81 秒)、成本最低(约 0.36-0.39 美元),且全部通过测试。而 Go、Rust、C 等静态语言则更慢、更贵,且结果波动更大。
💬 文章金句
- 动态语言(尤其是 Ruby、Python 和 JavaScript)始终是速度更快、成本更低且更稳定的选择,而静态类型语言的运行速度要慢 1.4 至 2.6 倍,成本也更高。
- 类型系统对 AI 生成代码的影响或许是对评估 AI 编码工作流的团队最具实用价值的发现。
- 在 Python 中添加 mypy 严格类型检查会使其速度降低 1.6 至 1.7 倍;在 Ruby 中添加 Steep 类型检查则会带来更大的性能损耗,速度比纯 Ruby 慢 2.0 至 3.2 倍。
- 该实验还得到了 Anthropic 的 Claude 开源计划支持,获得了为期六个月的 Claude Max 免费使用权限。此次基准测试仅衡量代码生成的成本与速度,不涉及代码质量、可维护性或运行时性能。
- 关于规模问题,他认同更大型的基准测试会更有价值,但也指出,设计一套对 15 种语言都公平的测试难度较大。
📊 文章信息
AI 初评:87
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1757
标签: Claude Code, AI 编程, 基准测试, 编程语言, 代码生成