SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11742)
★ 收藏 (0)
🤖 人工智能 (7549)
📊 商业科技 (1777)
💻 软件编程 (1189)
📁 个人成长 (733)
🎨 产品设计 (207)
📁 生活文化 (104)
📁 投资财经 (71)
📁 媒体资讯 (68)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ 评估意识
共 3 篇
✕ 清除篩選
11744
全部文章
11742
未讀
61
今日新增
0
收藏
📡 Poller
最後抓取:
29 分鐘前
(04-16 08:00)
BestBlogs 精選 (11725)
🏷️ 熱門標籤
AI Agent
1312
AI 智能体
732
Claude Code
641
Anthropic
620
LLM
563
OpenClaw
497
AI 编程
491
开源
438
AI
396
AI 安全
394
Claude
380
OpenAI
360
软件工程
353
开发者工具
339
生产力
308
GitHub
248
自动化
238
AI 基础设施
227
AI 开发
224
MCP
223
●
在大型开源权重模型中复现针对评估意识的引导(Steering)研究 — LessWrong
📌 一句话摘要 本研究在开源权重模型上复现了 Anthropic 的引导向量实验,发现语义无关的“控制”向量能够产生与意图向量同样显著的效果,这挑战了利用引导技术抑制评估意识的可靠性。 📝 详细摘要 本文详细介绍了英国 AI 安全研究所(AISI)模型透明度团队对 Anthropic 使用引导向
📅 2026-04-10 18:45
(5 天前)
Thomas Read
人工智能
1 分鐘
★ 88
AI 安全
模型引导
评估意识
对齐
●
通过部署资源衡量并提升代码审计的真实性 — LessWrong
📌 一句话摘要 本研究引入了“真实性胜率”(realism win rate)这一指标,用于量化 AI 审计记录与真实部署数据之间的可区分度,并证明了让审计智能体基于真实的部署资源进行操作,可以显著提升审计的真实性。 📝 详细摘要 本文探讨了 AI 审计中“评估意识”(eval-awarenes
📅 2026-03-24 01:20
(23 天前)
Connor Kissane
人工智能
1 分鐘
★ 88
AI 安全
LLM 评估
评估意识
Petri
●
Metagaming 对训练、评估和监督至关重要 — LessWrong
📌 一句话摘要 本文介绍了“Metagaming”这一前沿 AI 训练中关键的涌现现象,并指出相比于“评估意识”,它是一个更全面的框架,用于理解模型在训练和监督过程中的行为。 📝 详细摘要 本文探讨了“Metagaming”的概念,即 AI 模型针对训练和评估过程本身进行优化,而非针对预期任务进
📅 2026-03-19 05:26
(28 天前)
jenny
人工智能
1 分鐘
★ 83
AI 安全
对齐
Metagaming
前沿模型