本文组织 12 个顶级 AI 大模型参加 2026 年高考语文和数学考试,通过 API 统一调用、真人老师盲评,呈现各模型在文科与理科上的表现差异。
📝 详细摘要
作者延续往年传统,在 2026 年高考期间组织 12 个主流大模型(包括 Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问 3.7 max、文心 Ernie 5.1、星火 Spark X2、智谱 GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米 MiMo v2.5 Pro、混元 3)参加语文和数学考试。文章详细介绍了测试方法:使用 API 统一调用、关闭工具与搜索功能、以 LaTeX 格式纯文本输入题目、开发自动化考试脚本与阅卷平台、邀请 4 位有阅卷经历的高中老师进行盲评。结果显示,MiMo v2.5 Pro 以 256.3 分总分第一,Kimi k2.6 以 256.29 分紧随其后,前 9 名模型分差极小。语文方面 GLM5.1 和 Gemini 3.1 Pro 并列最高,数学方面 DeepSeek V4 Pro、MiMo 和 ERNIE 5.1 并列最高。文章还分析了语文作文评分中老师对结构清晰度、论证充分性、时代关联的重视,以及数学解题方法的多样性。最后作者回顾了从 2023 年到 2026 年 AI 参加高考的演变历程。
💡 主要观点
- 12 个顶级大模型在高考语文和数学上的表现差距极小,前 9 名总分差不到 4 分。 MiMo v2.5 Pro 以 256.3 分夺冠,Kimi k2.6 以 256.29 分紧随其后,第三到第九名之间差距仅 2 分,说明主流旗舰模型在标准化考试上的能力已趋于接近。
💬 文章金句
- MiMo 比 Kimi 语文少了 1 分,Kimi 数学比 MiMo 少了 1 分。。。要知道我们测评的语文卷子只有一道客观选择题,其他全是主观题,再加上有作文的存在,换算到实际评分上,可能就是某位语文老师在某道主观题上多给了 1 分的区别。
- 他们很在意高考作文的可评分结构。评语里会高频出现文体不清,文章结构不够清晰,观点不够清晰明确,论证不充分,时代关联不足等等评语。
- 因为,这是高考。这两个字,在中国,承载的东西太多也太厚重了。
📊 文章信息
AI 初评:86
来源:数字生命卡兹克
作者:数字生命卡兹克
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3736
标签: LLM, AI 评测, 模型评测与基准, AI 应用, AI 产品与应用