腾讯混元发布 CL-Bench Life，精准衡量模型在现实生活中的 “上下文学习” 能力

📌 一句话摘要

腾讯混元发布 CL-Bench Life 基准，旨在评估大模型在真实、碎片化、高噪声的日常生活场景中的上下文学习能力，测试发现当前最强模型平均仅能解决 14.5% 的任务。

📝 详细摘要

本文介绍了腾讯混元团队最新发布的 CL-Bench Life 基准，这是对之前 CL-Bench 的补充，专门用于衡量 AI 模型在现实生活中的上下文学习能力。与 CL-Bench 中结构清晰、知识密集的专业领域上下文不同，CL-Bench Life 聚焦于日常生活中的混乱、碎片化、高噪声场景，涵盖沟通社交、碎片信息与修改轨迹、行为记录与活动轨迹三大类别。基准包含 405 个真实任务和 5348 条人工编写的评分标准。测试了 12 个语言模型，平均任务解决率仅 14.5%，最佳模型 GPT-5.5 也仅达 22.2%。研究发现，模型的主要瓶颈并非长文本推理能力，而是处理高噪声、弱结构化上下文的能力，常见错误包括角色混淆、说话人归因错误和上下文误用。文章指出，让 AI 真正理解日常生活上下文，是迈向个人助手的关键一步。

💡 主要观点

- CL-Bench Life 是专为评估模型在日常生活场景中的上下文学习能力而设计的基准。 与关注专业领域知识的 CL-Bench 互补，该基准聚焦于混乱、碎片化、高噪声的真实生活上下文，涵盖沟通社交、碎片信息、行为记录三大类别。

当前最强模型在 CL-Bench Life 上表现不佳，平均任务解决率仅 14.5%。 测试了 12 个模型，最佳模型 GPT-5.5 也仅能解决 22.2% 的任务，表明模型在处理高噪声、弱结构化的日常生活上下文方面存在显著短板。

模型在日常生活上下文学习中的主要瓶颈是处理高噪声输入，而非长文本推理能力。 研究发现，输入长度与任务难度相关性较弱，即使上下文不长，只要包含大量噪声或信息分散，模型处理起来依然困难。

模型最常见的失败原因是上下文误用，尤其是在群聊场景中容易出现角色混淆和说话人归因错误。 模型虽然能读取信息，但常误解其含义，例如混淆指代、依赖过时信息、误判人际关系，导致推理结果出错。

💬 文章金句

- 一个真正嵌入日常生活的 AI 助手，需要能够从每个人生活中的蛛丝马迹里学习和理解，解决复杂生活场景中问题。

下一代 AI 助手真正需要的，往往不是记住更多 '知识'，而是对 '生活上下文（context）' 的理解与推理。
即使是当今最顶尖的 AI 模型，也还远没有真正读懂我们的日常。
让 AI 学会处理复杂 context，是它真正走进现实世界的关键。

📊 文章信息

AI 初评：86

来源：腾讯混元

作者：腾讯混元

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4453

标签： CL-Bench Life, 上下文学习, 大模型评估, 腾讯混元, AI 助手

阅读完整文章

腾讯混元发布 CL-Bench Life，精准衡量模型在现实生活中的 “上下文学习” 能力

🤖 問 AI