腾讯 HY 实验室等机构发布 Chronicles-OCR 基准测试,结果显示 28 个前沿多模态模型在识别 3000 年中国古文字上表现极差,最强模型在甲骨文上准确率仅 14%。
📝 详细摘要
这是一条对 AI 研究动态的解读。作者介绍了腾讯等机构发布的新基准测试 Chronicles-OCR,该测试专门评估 AI 对 3000 年中国古文字的识别能力。结果 28 个前沿多模态模型表现惨淡,最强模型在甲骨文上准确率仅 14%,GPT-5 和 Gemini 2.5 Pro 接近 0。更反直觉的是,开启推理模式反而让表现变差。作者指出,模型实际上是在识别载体(如龟壳、青铜器)而非文字本身。
📊 文章信息
AI 初评:82
来源:Berryxia.AI(@berryxia)
作者:Berryxia.AI
分类:人工智能
语言:中文
阅读时间:2 分钟
字数:358
标签: Chronicles-OCR, 腾讯, 古文字识别, 多模态, 基准测试