xAI 的 Grok 4.20 Beta Reasoning 在 LMSYS Arena 榜单中取得显著成绩,位列文本榜第 7 名和代码榜第 28 名。
📝 详细摘要
LMSYS Arena 公布了 xAI 全新推理模型 Grok 4.20 Beta Reasoning 的基准测试结果。该模型表现强劲,在文本竞技场(Text Arena)总榜排名第 7(与 GPT-5.4-high 并列),在代码竞技场(Code Arena)排名第 28。在 Agent 化的 Web 开发任务中,其表现与 DeepSeek-v3.2 和 Qwen3.5 不相上下,并在数学、创意写作和硬核提示词(Hard Prompts)等多个专业类别中稳居前 10。
📊 文章信息
AI 评分:88
来源:lmarena.ai(@lmarena_ai)
作者:Arena.ai
分类:人工智能
语言:英文
阅读时间:2 分钟
字数:403
标签: Grok 4.20, xAI, LMSYS Arena, 大模型基准测试, 推理模型