ARC-AGI-3 基准测试结果显示,当前主流前沿大模型得分均低于 1%,远低于人类 100% 的得分,凸显了通往 AGI 的巨大差距。
📝 详细摘要
该推文引用了 ARC-AGI-3 基准测试的发布信息。测试结果显示,包括 Opus、GPT-5.4、Gemini 3.1 和 Grok 4.20 在内的前沿大模型在测试中的得分均不足 1%,而人类得分达到 100%。该基准测试旨在评估模型的学习能力而非知识储备,结果表明目前的大模型在处理未见过的任务时,与人类智能仍存在本质差距,尚未达到 AGI 水平。
📊 文章信息
AI 评分:80
来源:马东锡 NLP(@dongxi_nlp)
作者:马东锡 NLP
分类:人工智能
语言:中文
阅读时间:1 分钟
字数:126
标签: ARC-AGI-3, AGI, LLM, 基准测试, 人工智能