Cursor 推出基于内部真实工程数据的编程大模型评测基准 Cursor Bench,揭示了当前最强编程模型表现。
📝 详细摘要
Cursor 团队发布了名为 Cursor Bench 的评测基准,旨在更真实地评估编程大模型在实际开发中的表现。该基准通过 Cursor Blame 技术追溯 Git 提交,将 AI 生成的代码与当时的用户真实请求配对,从而构建出高度接近日常开发场景的测试集。评测结果显示,特定版本的 GPT 和 Claude 模型处于领先地位,但也指出其 Token 消耗较高。这一基准为开发者选择和优化编程 AI 提供了重要参考。
📊 文章信息
AI 评分:82
来源:Viking(@vikingmute)
作者:Viking
分类:人工智能
语言:中文
阅读时间:1 分钟
字数:234
标签: Cursor, Cursor Bench, 编程大模型, LLM评估, 代码生成