ARC-AGI-3 基准测试发布：前沿大模型表现远落后于人类

📅 2026-03-26 04:21 马东锡 NLP 人工智能 1 分鐘 520 字評分: 80

📌 一句话摘要 ARC-AGI-3 基准测试结果显示，当前主流前沿大模型得分均低于 1%，远低于人类 100% 的得分，凸显了通往 AGI 的巨大差距。 📝 详细摘要该推文引用了 ARC-AGI-3 基准测试的发布信息。测试结果显示，包括 Opus、GPT-5.4、Gemini 3.1 和 Grok 4.20 在内的前沿大模型在测试中的得分均不足 1%，而人类得分达到 100%。该基准测试旨在评估模型的学习能力而非知识储备，结果表明目前的大模型在处理未见过的任务时，与人类智能仍存在本质差距，尚未达到 AGI 水平。 📊 文章信息 AI 评分：80 来源：马东锡 NLP(@dongxi_

📌 一句话摘要

ARC-AGI-3 基准测试结果显示，当前主流前沿大模型得分均低于 1%，远低于人类 100% 的得分，凸显了通往 AGI 的巨大差距。

📝 详细摘要

该推文引用了 ARC-AGI-3 基准测试的发布信息。测试结果显示，包括 Opus、GPT-5.4、Gemini 3.1 和 Grok 4.20 在内的前沿大模型在测试中的得分均不足 1%，而人类得分达到 100%。该基准测试旨在评估模型的学习能力而非知识储备，结果表明目前的大模型在处理未见过的任务时，与人类智能仍存在本质差距，尚未达到 AGI 水平。

📊 文章信息

AI 评分：80

来源：马东锡 NLP(@dongxi_nlp)

作者：马东锡 NLP

分类：人工智能

语言：中文

阅读时间：1 分钟

字数：126

标签： ARC-AGI-3, AGI, LLM, 基准测试, 人工智能

阅读推文

查看原文 → 發佈: 2026-03-26 04:21:09 收錄: 2026-03-26 08:00:57

ARC-AGI-3 基准测试发布：前沿大模型表现远落后于人类

🤖 問 AI