SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11783)
★ 收藏 (0)
🤖 人工智能 (7568)
📊 商业科技 (1784)
💻 软件编程 (1196)
📁 个人成长 (735)
🎨 产品设计 (208)
📁 生活文化 (108)
📁 投资财经 (71)
📁 媒体资讯 (69)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ 模型引导
共 2 篇
✕ 清除篩選
11785
全部文章
11783
未讀
102
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-16 12:00)
BestBlogs 精選 (11766)
🏷️ 熱門標籤
AI Agent
1319
AI 智能体
732
Claude Code
643
Anthropic
621
LLM
563
OpenClaw
498
AI 编程
497
开源
438
AI
396
AI 安全
395
Claude
381
OpenAI
362
软件工程
354
开发者工具
341
生产力
308
GitHub
249
自动化
238
AI 基础设施
227
AI 开发
224
MCP
223
●
在大型开源权重模型中复现针对评估意识的引导(Steering)研究 — LessWrong
📌 一句话摘要 本研究在开源权重模型上复现了 Anthropic 的引导向量实验,发现语义无关的“控制”向量能够产生与意图向量同样显著的效果,这挑战了利用引导技术抑制评估意识的可靠性。 📝 详细摘要 本文详细介绍了英国 AI 安全研究所(AISI)模型透明度团队对 Anthropic 使用引导向
📅 2026-04-10 18:45
(5 天前)
Thomas Read
人工智能
1 分鐘
★ 88
AI 安全
模型引导
评估意识
对齐
●
零样本对齐:通过不一致注意力机制进行危害检测 — LessWrong
📌 一句话摘要 本文介绍了一种新颖的轻量级适配器架构,它强制 LLM 通过数学上对立的注意力机制处理隐藏状态,从而通过潜在空间差异化来检测并抑制有害内容。 📝 详细摘要 作者提出了一种紧凑型(约 470 万参数)适配器,专为 Phi-2 等冻结基座模型设计。通过将隐藏状态路由至“正向头”(标准
📅 2026-04-09 06:16
(7 天前)
Methuselah
人工智能
12 分鐘
★ 88
LLM 对齐
注意力机制
潜在空间
模型引导