← 回總覽

今年高考,我让 12 个顶级 AI 一起考了语文和数学,结果有点意外。

📅 2026-06-08 11:08 数字生命卡兹克 人工智能 2 分鐘 1684 字 評分: 86
LLM AI 评测 模型评测与基准 AI 应用 AI 产品与应用
📌 一句话摘要 本文组织 12 个顶级 AI 大模型参加 2026 年高考语文和数学考试,通过 API 统一调用、真人老师盲评,呈现各模型在文科与理科上的表现差异。 📝 详细摘要 作者延续往年传统,在 2026 年高考期间组织 12 个主流大模型(包括 Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问 3.7 max、文心 Ernie 5.1、星火 Spark X2、智谱 GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米 MiMo v2.5 Pro、混元 3)参加语文和数学考试。文章详细介绍了测试方法:使用 AP

📌 一句话摘要

本文组织 12 个顶级 AI 大模型参加 2026 年高考语文和数学考试,通过 API 统一调用、真人老师盲评,呈现各模型在文科与理科上的表现差异。

📝 详细摘要

作者延续往年传统,在 2026 年高考期间组织 12 个主流大模型(包括 Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问 3.7 max、文心 Ernie 5.1、星火 Spark X2、智谱 GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米 MiMo v2.5 Pro、混元 3)参加语文和数学考试。文章详细介绍了测试方法:使用 API 统一调用、关闭工具与搜索功能、以 LaTeX 格式纯文本输入题目、开发自动化考试脚本与阅卷平台、邀请 4 位有阅卷经历的高中老师进行盲评。结果显示,MiMo v2.5 Pro 以 256.3 分总分第一,Kimi k2.6 以 256.29 分紧随其后,前 9 名模型分差极小。语文方面 GLM5.1 和 Gemini 3.1 Pro 并列最高,数学方面 DeepSeek V4 Pro、MiMo 和 ERNIE 5.1 并列最高。文章还分析了语文作文评分中老师对结构清晰度、论证充分性、时代关联的重视,以及数学解题方法的多样性。最后作者回顾了从 2023 年到 2026 年 AI 参加高考的演变历程。

💡 主要观点

- 12 个顶级大模型在高考语文和数学上的表现差距极小,前 9 名总分差不到 4 分。 MiMo v2.5 Pro 以 256.3 分夺冠,Kimi k2.6 以 256.29 分紧随其后,第三到第九名之间差距仅 2 分,说明主流旗舰模型在标准化考试上的能力已趋于接近。

不同模型在文理科目上表现出明显偏科。 GLM5.1 和 Gemini 3.1 Pro 语文并列最高但数学相对偏弱,DeepSeek V4 Pro 数学并列最高但语文因作文得分低而排名靠后,反映出模型训练侧重不同导致的能力分化。
语文作文评分中,老师最看重结构清晰度、论证充分性和时代关联。 三位语文老师的评语高频出现「文体不清」「结构不够清晰」「论证不充分」「时代关联不足」等批评,说明 AI 作文在逻辑框架和现实联系上仍有明显短板。
数学解题正确率高,但解题方法呈现多样性。 数学老师反馈前几道大题基本满分,但不同模型在几何题上采用了不同的解题路径,体现了模型推理策略的差异。

💬 文章金句

- MiMo 比 Kimi 语文少了 1 分,Kimi 数学比 MiMo 少了 1 分。。。要知道我们测评的语文卷子只有一道客观选择题,其他全是主观题,再加上有作文的存在,换算到实际评分上,可能就是某位语文老师在某道主观题上多给了 1 分的区别。

  • 他们很在意高考作文的可评分结构。评语里会高频出现文体不清,文章结构不够清晰,观点不够清晰明确,论证不充分,时代关联不足等等评语。
  • 因为,这是高考。这两个字,在中国,承载的东西太多也太厚重了。

📊 文章信息

AI 初评:86

来源:数字生命卡兹克

作者:数字生命卡兹克

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3736

标签: LLM, AI 评测, 模型评测与基准, AI 应用, AI 产品与应用

阅读完整文章

查看原文 → 發佈: 2026-06-08 11:08:00 收錄: 2026-06-08 22:00:20

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。