Agent 记忆赛道大洗牌！LoCoMo-Refined 重磅发布，主流记忆框架迎来核心检验

📌 一句话摘要

本文介绍了由南京大学与上海人工智能实验室联合发布的 Agent 记忆评测新基准 LoCoMo-Refined，该基准通过修正数据集和引入更严格的评判标准，揭示了主流记忆框架在旧基准下得分虚高的问题，并展示了其在严苛标准下的真实性能。

📝 详细摘要

文章详细阐述了南京大学与上海人工智能实验室联合推出的 Agent 记忆评测新基准 LoCoMo-Refined。该研究指出，现有的主流记忆评测基准（如 LoCoMo）存在两大核心漏洞：一是评判标准过于宽松（“相关即正确”），导致无法有效识别记忆系统的冗余生成和时间漂移错误；二是数据集本身存在逻辑颠倒、事实偏差等“脏数据”。为解决这些问题，LoCoMo-Refined 从两方面进行了重构：1. 引入基于“包含且不矛盾，完整且不越界”原则的新 Judger，严格惩罚幻觉与冗余；2. 通过 AI 初筛与人工核验，修正了 337 道存在瑕疵的题目，提升了数据质量。在新基准的严苛测试下，MemPalace、EverMemOS 等主流记忆框架的得分普遍下降了 15-22 个百分点，暴露了其在长对话记忆任务中的真实瓶颈。文章还介绍了基准的开源情况，旨在为社区提供更客观的验证工具。

💡 主要观点

- 现有 Agent 记忆评测基准存在评判标准宽松和数据质量问题。 旧基准采用“相关即正确”的宽松评判逻辑，掩盖了记忆系统召回冗余信息和过度生成的缺陷；同时，数据集中存在主客体颠倒、时间不符等错误标注，干扰了评测的客观性。

LoCoMo-Refined 通过严格的新 Judger 和精修数据集，构建了更客观的评测标尺。 新 Judger 遵循“包含且不矛盾，完整且不越界”的原则，对冗余生成和未经验证的细节明确扣分。同时，团队通过 AI 与人工协同，修正了大量有瑕疵的题目，提升了数据集的纯净度。

在严苛的新基准下，主流记忆框架的真实性能显著低于旧基准得分。 MemPalace、EverMemOS 等框架在 LoCoMo-Refined 上的得分普遍下降 15-22 个百分点，表明旧基准的高分存在“水分”，新基准更能暴露记忆系统在时间推理、细节回忆等方面的真实瓶颈。

该研究旨在为社区提供开源的基础设施，推动 Agent 记忆架构的针对性改进。 LoCoMo-Refined 的完整数据集和评测脚本已开源，其目标不是否定特定框架，而是提供更准确的验证工具，帮助识别技术瓶颈，引导研究方向。

💬 文章金句

- 现有的评测‘标尺’本身存在偏差，并总结出当前记忆评测基准普遍存在的两大漏洞：第一，评判标准过于宽容；第二，考卷本身也存在错漏。

新 Judger 的核心原则：包含且不矛盾，完整且不越界——对冗余生成和未验证细节明确扣分。
在 LoCoMo-Refined 的严苛标准下，MemPalace、EverMemOS 等主流记忆框架的得分普遍下降 15–22 个百分点——它们此前的高分，在很大程度上是评测标尺本身的宽松所致。
这种宽松的裁判标准，实际上导致了严重的假阳性。它让那些记忆混乱、时间线模糊、生成额外事实的结果，获得了远超其真实能力的高分。
LoCoMo-Refined 的目标不是否定特定框架，而是为社区提供更客观的验证工具，帮助识别真实瓶颈，推动记忆架构的针对性改进。

📊 文章信息

AI 初评：87

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3741

标签： Agent 记忆, 评测基准, LoCoMo-Refined, 记忆系统, AI 评测

阅读完整文章

Agent 记忆赛道大洗牌！LoCoMo-Refined 重磅发布，主流记忆框架迎来核心检验

🤖 問 AI