搜尋結果 — SuperPortia 閱讀

全部未讀 (21702) ★ 收藏 (0) 🤖 人工智能 (11205) 📊 商业科技 (4472) 💻 软件编程 (1689) 📁 个人成长 (1607) 📁 生活文化 (866) 📁 媒体资讯 (841) 📁 投资财经 (538) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)

篩選中: 🏷️ 激活引导共 4 篇 ✕ 清除篩選

66

今日新增

📡 Poller 最後抓取: 1 小時前 (06-09 04:00)

BestBlogs 精選 (21669)

🏷️ 熱門標籤

AI Agent 2176 AI 编程 994 Anthropic 981 Claude Code 918 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 433 Codex 416 软件工程 399 具身智能 338 Agent 336 个人成长 334 GitHub 321 生产力 315

● 拥有多个目标的智能体如何选择目标？— LessWrong

📌 一句话摘要本研究探讨了迷宫求解强化学习智能体如何在内部表示多个顺序目标，揭示了它通过负激活进行空间门控，而非依赖通道特化。 📝 详细摘要本文详细介绍了一项针对在 Procgen Heist 环境中训练的迷宫求解强化学习智能体的机械可解释性研究。与通道特化的预期相反，作者发现该智能体采用了

📅 2026-04-08 12:21 (04-08 12:21) sturb 人工智能 1 分鐘 ★ 88

机械可解释性强化学习空间门控激活引导

● 引导（Steering）可能很快就会失效 — LessWrong

📌 一句话摘要作者认为，随着模型规模的扩大，针对 LLM 的简单激活引导技术正变得越来越无效，这表明依赖这些方法来实现安全和对齐存在风险，需要更复杂的替代方案。 📝 详细摘要本文探讨了随着模型规模和能力的增长，激活引导（一种控制 LLM 行为的常用技术）的可行性正在下降。作者将引导 LLM

📅 2026-04-06 00:44 (04-06 00:44) J Bostock 人工智能 7 分鐘 ★ 87

LLM 激活引导 AI 对齐模型可解释性

● 潜在推理冲刺 #3：激活差异引导与 Logit Lens — LessWrong

📌 一句话摘要这篇研究文章探讨了激活引导和调优后的 Logit Lens 技术在 CoDI Llama 3.2 1B 模型上的有效性，发现虽然隐藏状态引导的效果微乎其微，但引导 KV 缓存可以提高模型准确率。 📝 详细摘要本文详细介绍了作者研究冲刺的第三部分，重点关注应用于 CoDI（密度/

📅 2026-04-04 11:56 (04-04 11:56) Realmbird 人工智能 1 分鐘 ★ 86

机械可解释性激活引导 Logit Lens CoDI

● GPT-2 是否存在“恐惧方向”？—— LessWrong

📌 一句话摘要一项独立调查，旨在探究 Anthropic 在 Claude Sonnet 4.5 研究中发现的“恐惧方向”是否存在于 GPT-2 等较小的模型中。研究发现，虽然这种表征确实存在，但行为引导受到模型能力的限制。 📝 详细摘要作者尝试使用 GPT-2 复现 Anthropic 关

📅 2026-04-04 07:08 (04-04 07:08) seanmagee 人工智能 1 分鐘 ★ 86

机械可解释性 GPT-2 激活引导 AI 安全