SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11821)
★ 收藏 (0)
🤖 人工智能 (7594)
📊 商业科技 (1791)
💻 软件编程 (1198)
📁 个人成长 (736)
🎨 产品设计 (209)
📁 生活文化 (109)
📁 投资财经 (71)
📁 媒体资讯 (69)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ 模型可解释性
共 7 篇
✕ 清除篩選
11823
全部文章
11821
未讀
140
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-16 14:00)
BestBlogs 精選 (11804)
🏷️ 熱門標籤
AI Agent
1324
AI 智能体
734
Claude Code
645
Anthropic
622
LLM
563
AI 编程
501
OpenClaw
498
开源
439
AI 安全
396
AI
396
Claude
384
OpenAI
362
软件工程
354
开发者工具
343
生产力
308
GitHub
251
自动化
238
AI 基础设施
227
AI 开发
225
MCP
223
●
荣登 Science!大模型竞争的下一个关键变量
📌 一句话摘要 本文介绍了大模型安全与可控生成领域的前沿趋势——从外部提示对齐转向内部表征控制,并以此为核心推广一场关于概念提取、监控与通用可控生成的专题直播课程。 📝 详细摘要 文章指出,大模型安全与可控生成的研究正从传统的提示对齐转向更底层的模型内部表征控制。这一趋势的标志是今年 2 月发表
📅 2026-04-13 10:10
(3 天前)
AINLP
人工智能
1 分鐘
★ 76
大模型安全
表征控制
可控生成
模型可解释性
●
引导(Steering)可能很快就会失效 — LessWrong
📌 一句话摘要 作者认为,随着模型规模的扩大,针对 LLM 的简单激活引导技术正变得越来越无效,这表明依赖这些方法来实现安全和对齐存在风险,需要更复杂的替代方案。 📝 详细摘要 本文探讨了随着模型规模和能力的增长,激活引导(一种控制 LLM 行为的常用技术)的可行性正在下降。作者将引导 LLM
📅 2026-04-06 00:44
(10 天前)
J Bostock
人工智能
7 分鐘
★ 87
LLM
激活引导
AI 对齐
模型可解释性
●
Anthropic 推出用于比较 AI 模型行为的“diff”方法
📌 一句话摘要 Anthropic 研究人员引入了一种新方法,将软件开发中的“diff”原则应用于系统性地识别开放权重 AI 模型之间的行为差异。 📝 详细摘要 这条推文介绍了 Anthropic 研究员的一项新研究,该研究将软件开发中的“diff”(差异比较)概念应用于 AI 模型分析。通过应
📅 2026-04-04 05:28
(12 天前)
Anthropic
人工智能
1 分鐘
★ 86
Anthropic
AI 研究
模型可解释性
开放权重
●
预测强化学习训练何时会破坏思维链(CoT)的可监控性 — LessWrong
📌 一句话摘要 本文引入了一个概念框架,用于预测强化学习(RL)训练何时会导致 AI 模型掩盖其思维链(CoT)推理过程,从而破坏可监控性。 📝 详细摘要 作者提出了一个框架,旨在理解强化学习训练为何以及何时会降低 AI 智能体思维链(CoT)的可监控性。他们将奖励函数分为三类:“冲突型”(In
📅 2026-04-01 18:23
(14 天前)
David Lindner
人工智能
1 分鐘
★ 92
AI 安全
思维链
强化学习
模型可解释性
●
“承载式混淆” 与 “自我越狱” 思维链 (CoT) — LessWrong
📌 一句话摘要 本文探讨了 LLM 中的 “承载式混淆” (load-bearing obfuscation),证明了微调可以使模型在内部思维链 (CoT) 轨迹中隐藏针对特定任务的推理过程,同时也强调了通过 CoT 实现 “自我越狱” (self-jailbreaking) 的现象。 📝 详细
📅 2026-03-26 12:02
(21 天前)
Graeme Ford
人工智能
1 分鐘
★ 82
AI 安全
思维链 (CoT)
LLM 微调
模型可解释性
●
后训练如何塑造法律表征:跨模型家族的 SCOTUS 意见书探测研究
📌 一句话摘要 本研究利用探测和表征工程技术对美国最高法院意见书进行分析,探究后训练如何塑造大语言模型对抽象法律原则的内部表征。 📝 详细摘要 文章探讨了法律概念表征(如正当程序、联邦主义)在多种开源模型家族(包括 Llama、Gemma 和 Qwen)中的涌现机制。通过岭回归探测激活值,并进行
📅 2026-03-15 08:30
(03-15 08:30)
burnssa
人工智能
15 分鐘
★ 88
表征工程
模型可解释性
法律 AI
探测技术
●
转向感知:模型可以被训练来检测激活操纵 — LessWrong
📌 一句话摘要 这项研究表明,LLM 可以被微调以稳健地检测和识别注入到其残差流中的语义操纵向量,这挑战了基于操纵的安全评估的可靠性。 📝 详细摘要 这篇文章探讨了“转向感知”——一种 LLM 可以被训练来识别其内部激活何时被操纵的现象。作者使用轻量级 LoRA 微调在多个开源模型上,展示了模型
📅 2026-03-13 07:34
(03-13 07:34)
josh :)
人工智能
11 分鐘
★ 86
激活操纵
模型可解释性
AI 安全
LoRA 微调