全部 未讀 (11783) ★ 收藏 (0) 🤖 人工智能 (7568) 📊 商业科技 (1784) 💻 软件编程 (1196) 📁 个人成长 (735) 🎨 产品设计 (208) 📁 生活文化 (108) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 模型引导 共 2 篇 ✕ 清除篩選
11785
全部文章
11783
未讀
102
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 12:00)
BestBlogs 精選 (11766)

🏷️ 熱門標籤

AI Agent 1319 AI 智能体 732 Claude Code 643 Anthropic 621 LLM 563 OpenClaw 498 AI 编程 497 开源 438 AI 396 AI 安全 395 Claude 381 OpenAI 362 软件工程 354 开发者工具 341 生产力 308 GitHub 249 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
在大型开源权重模型中复现针对评估意识的引导(Steering)研究 — LessWrong
📌 一句话摘要 本研究在开源权重模型上复现了 Anthropic 的引导向量实验,发现语义无关的“控制”向量能够产生与意图向量同样显著的效果,这挑战了利用引导技术抑制评估意识的可靠性。 📝 详细摘要 本文详细介绍了英国 AI 安全研究所(AISI)模型透明度团队对 Anthropic 使用引导向
📅 2026-04-10 18:45 (5 天前) Thomas Read 人工智能 1 分鐘 ★ 88
AI 安全 模型引导 评估意识 对齐
零样本对齐:通过不一致注意力机制进行危害检测 — LessWrong
📌 一句话摘要 本文介绍了一种新颖的轻量级适配器架构,它强制 LLM 通过数学上对立的注意力机制处理隐藏状态,从而通过潜在空间差异化来检测并抑制有害内容。 📝 详细摘要 作者提出了一种紧凑型(约 470 万参数)适配器,专为 Phi-2 等冻结基座模型设计。通过将隐藏状态路由至“正向头”(标准
📅 2026-04-09 06:16 (7 天前) Methuselah 人工智能 12 分鐘 ★ 88
LLM 对齐 注意力机制 潜在空间 模型引导