SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (21702)
★ 收藏 (0)
🤖 人工智能 (11205)
📊 商业科技 (4472)
💻 软件编程 (1689)
📁 个人成长 (1607)
📁 生活文化 (866)
📁 媒体资讯 (841)
📁 投资财经 (538)
🎨 产品设计 (409)
📁 AI 产品 (39)
📁 体育运动 (28)
篩選中:
🏷️ 激活引导
共 4 篇
✕ 清除篩選
21704
全部文章
21702
未讀
66
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(06-09 04:00)
BestBlogs 精選 (21669)
🏷️ 熱門標籤
AI Agent
2176
AI 编程
994
Anthropic
981
Claude Code
918
AI 智能体
780
OpenAI
745
LLM
689
开源
574
OpenClaw
557
Claude
557
AI
517
AI 安全
492
开发者工具
433
Codex
416
软件工程
399
具身智能
338
Agent
336
个人成长
334
GitHub
321
生产力
315
●
拥有多个目标的智能体如何选择目标?— LessWrong
📌 一句话摘要 本研究探讨了迷宫求解强化学习智能体如何在内部表示多个顺序目标,揭示了它通过负激活进行空间门控,而非依赖通道特化。 📝 详细摘要 本文详细介绍了一项针对在 Procgen Heist 环境中训练的迷宫求解强化学习智能体的机械可解释性研究。与通道特化的预期相反,作者发现该智能体采用了
📅 2026-04-08 12:21
(04-08 12:21)
sturb
人工智能
1 分鐘
★ 88
机械可解释性
强化学习
空间门控
激活引导
●
引导(Steering)可能很快就会失效 — LessWrong
📌 一句话摘要 作者认为,随着模型规模的扩大,针对 LLM 的简单激活引导技术正变得越来越无效,这表明依赖这些方法来实现安全和对齐存在风险,需要更复杂的替代方案。 📝 详细摘要 本文探讨了随着模型规模和能力的增长,激活引导(一种控制 LLM 行为的常用技术)的可行性正在下降。作者将引导 LLM
📅 2026-04-06 00:44
(04-06 00:44)
J Bostock
人工智能
7 分鐘
★ 87
LLM
激活引导
AI 对齐
模型可解释性
●
潜在推理冲刺 #3:激活差异引导与 Logit Lens — LessWrong
📌 一句话摘要 这篇研究文章探讨了激活引导和调优后的 Logit Lens 技术在 CoDI Llama 3.2 1B 模型上的有效性,发现虽然隐藏状态引导的效果微乎其微,但引导 KV 缓存可以提高模型准确率。 📝 详细摘要 本文详细介绍了作者研究冲刺的第三部分,重点关注应用于 CoDI(密度/
📅 2026-04-04 11:56
(04-04 11:56)
Realmbird
人工智能
1 分鐘
★ 86
机械可解释性
激活引导
Logit Lens
CoDI
●
GPT-2 是否存在“恐惧方向”?—— LessWrong
📌 一句话摘要 一项独立调查,旨在探究 Anthropic 在 Claude Sonnet 4.5 研究中发现的“恐惧方向”是否存在于 GPT-2 等较小的模型中。研究发现,虽然这种表征确实存在,但行为引导受到模型能力的限制。 📝 详细摘要 作者尝试使用 GPT-2 复现 Anthropic 关
📅 2026-04-04 07:08
(04-04 07:08)
seanmagee
人工智能
1 分鐘
★ 86
机械可解释性
GPT-2
激活引导
AI 安全