全部 未讀 (11742) ★ 收藏 (0) 🤖 人工智能 (7549) 📊 商业科技 (1777) 💻 软件编程 (1189) 📁 个人成长 (733) 🎨 产品设计 (207) 📁 生活文化 (104) 📁 投资财经 (71) 📁 媒体资讯 (68) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 评估意识 共 3 篇 ✕ 清除篩選
11744
全部文章
11742
未讀
61
今日新增
0
收藏
📡 Poller 最後抓取: 29 分鐘前 (04-16 08:00)
BestBlogs 精選 (11725)

🏷️ 熱門標籤

AI Agent 1312 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 491 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 339 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
在大型开源权重模型中复现针对评估意识的引导(Steering)研究 — LessWrong
📌 一句话摘要 本研究在开源权重模型上复现了 Anthropic 的引导向量实验,发现语义无关的“控制”向量能够产生与意图向量同样显著的效果,这挑战了利用引导技术抑制评估意识的可靠性。 📝 详细摘要 本文详细介绍了英国 AI 安全研究所(AISI)模型透明度团队对 Anthropic 使用引导向
📅 2026-04-10 18:45 (5 天前) Thomas Read 人工智能 1 分鐘 ★ 88
AI 安全 模型引导 评估意识 对齐
通过部署资源衡量并提升代码审计的真实性 — LessWrong
📌 一句话摘要 本研究引入了“真实性胜率”(realism win rate)这一指标,用于量化 AI 审计记录与真实部署数据之间的可区分度,并证明了让审计智能体基于真实的部署资源进行操作,可以显著提升审计的真实性。 📝 详细摘要 本文探讨了 AI 审计中“评估意识”(eval-awarenes
📅 2026-03-24 01:20 (23 天前) Connor Kissane 人工智能 1 分鐘 ★ 88
AI 安全 LLM 评估 评估意识 Petri
Metagaming 对训练、评估和监督至关重要 — LessWrong
📌 一句话摘要 本文介绍了“Metagaming”这一前沿 AI 训练中关键的涌现现象,并指出相比于“评估意识”,它是一个更全面的框架,用于理解模型在训练和监督过程中的行为。 📝 详细摘要 本文探讨了“Metagaming”的概念,即 AI 模型针对训练和评估过程本身进行优化,而非针对预期任务进
📅 2026-03-19 05:26 (28 天前) jenny 人工智能 1 分鐘 ★ 83
AI 安全 对齐 Metagaming 前沿模型