今年高考，我让 12 个顶级 AI 一起考了语文和数学，结果有点意外。

📌 一句话摘要

本文组织 12 个顶级 AI 大模型参加 2026 年高考语文和数学考试，通过 API 统一调用、真人老师盲评，呈现各模型在文科与理科上的表现差异。

📝 详细摘要

作者延续往年传统，在 2026 年高考期间组织 12 个主流大模型（包括 Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问 3.7 max、文心 Ernie 5.1、星火 Spark X2、智谱 GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米 MiMo v2.5 Pro、混元 3）参加语文和数学考试。文章详细介绍了测试方法：使用 API 统一调用、关闭工具与搜索功能、以 LaTeX 格式纯文本输入题目、开发自动化考试脚本与阅卷平台、邀请 4 位有阅卷经历的高中老师进行盲评。结果显示，MiMo v2.5 Pro 以 256.3 分总分第一，Kimi k2.6 以 256.29 分紧随其后，前 9 名模型分差极小。语文方面 GLM5.1 和 Gemini 3.1 Pro 并列最高，数学方面 DeepSeek V4 Pro、MiMo 和 ERNIE 5.1 并列最高。文章还分析了语文作文评分中老师对结构清晰度、论证充分性、时代关联的重视，以及数学解题方法的多样性。最后作者回顾了从 2023 年到 2026 年 AI 参加高考的演变历程。

💡 主要观点

- 12 个顶级大模型在高考语文和数学上的表现差距极小，前 9 名总分差不到 4 分。 MiMo v2.5 Pro 以 256.3 分夺冠，Kimi k2.6 以 256.29 分紧随其后，第三到第九名之间差距仅 2 分，说明主流旗舰模型在标准化考试上的能力已趋于接近。

不同模型在文理科目上表现出明显偏科。 GLM5.1 和 Gemini 3.1 Pro 语文并列最高但数学相对偏弱，DeepSeek V4 Pro 数学并列最高但语文因作文得分低而排名靠后，反映出模型训练侧重不同导致的能力分化。

语文作文评分中，老师最看重结构清晰度、论证充分性和时代关联。 三位语文老师的评语高频出现「文体不清」「结构不够清晰」「论证不充分」「时代关联不足」等批评，说明 AI 作文在逻辑框架和现实联系上仍有明显短板。

数学解题正确率高，但解题方法呈现多样性。 数学老师反馈前几道大题基本满分，但不同模型在几何题上采用了不同的解题路径，体现了模型推理策略的差异。

💬 文章金句

- MiMo 比 Kimi 语文少了 1 分，Kimi 数学比 MiMo 少了 1 分。。。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了 1 分的区别。

他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。
因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。

📊 文章信息

AI 初评：86

来源：数字生命卡兹克

作者：数字生命卡兹克

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3736

标签： LLM, AI 评测, 模型评测与基准, AI 应用, AI 产品与应用

阅读完整文章

今年高考，我让 12 个顶级 AI 一起考了语文和数学，结果有点意外。

🤖 問 AI