搜尋結果 — SuperPortia 閱讀

全部未讀 (11821) ★ 收藏 (0) 🤖 人工智能 (7594) 📊 商业科技 (1791) 💻 软件编程 (1198) 📁 个人成长 (736) 🎨 产品设计 (209) 📁 生活文化 (109) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)

篩選中: 🏷️ 模型可解释性共 7 篇 ✕ 清除篩選

140

今日新增

📡 Poller 最後抓取: 1 小時前 (04-16 14:00)

BestBlogs 精選 (11804)

🏷️ 熱門標籤

AI Agent 1324 AI 智能体 734 Claude Code 645 Anthropic 622 LLM 563 AI 编程 501 OpenClaw 498 开源 439 AI 安全 396 AI 396 Claude 384 OpenAI 362 软件工程 354 开发者工具 343 生产力 308 GitHub 251 自动化 238 AI 基础设施 227 AI 开发 225 MCP 223

● 荣登 Science！大模型竞争的下一个关键变量

📌 一句话摘要本文介绍了大模型安全与可控生成领域的前沿趋势——从外部提示对齐转向内部表征控制，并以此为核心推广一场关于概念提取、监控与通用可控生成的专题直播课程。 📝 详细摘要文章指出，大模型安全与可控生成的研究正从传统的提示对齐转向更底层的模型内部表征控制。这一趋势的标志是今年 2 月发表

📅 2026-04-13 10:10 (3 天前) AINLP 人工智能 1 分鐘 ★ 76

大模型安全表征控制可控生成模型可解释性

● 引导（Steering）可能很快就会失效 — LessWrong

📌 一句话摘要作者认为，随着模型规模的扩大，针对 LLM 的简单激活引导技术正变得越来越无效，这表明依赖这些方法来实现安全和对齐存在风险，需要更复杂的替代方案。 📝 详细摘要本文探讨了随着模型规模和能力的增长，激活引导（一种控制 LLM 行为的常用技术）的可行性正在下降。作者将引导 LLM

📅 2026-04-06 00:44 (10 天前) J Bostock 人工智能 7 分鐘 ★ 87

LLM 激活引导 AI 对齐模型可解释性

● Anthropic 推出用于比较 AI 模型行为的“diff”方法

📌 一句话摘要 Anthropic 研究人员引入了一种新方法，将软件开发中的“diff”原则应用于系统性地识别开放权重 AI 模型之间的行为差异。 📝 详细摘要这条推文介绍了 Anthropic 研究员的一项新研究，该研究将软件开发中的“diff”（差异比较）概念应用于 AI 模型分析。通过应

📅 2026-04-04 05:28 (12 天前) Anthropic 人工智能 1 分鐘 ★ 86

Anthropic AI 研究模型可解释性开放权重

● 预测强化学习训练何时会破坏思维链（CoT）的可监控性 — LessWrong

📌 一句话摘要本文引入了一个概念框架，用于预测强化学习（RL）训练何时会导致 AI 模型掩盖其思维链（CoT）推理过程，从而破坏可监控性。 📝 详细摘要作者提出了一个框架，旨在理解强化学习训练为何以及何时会降低 AI 智能体思维链（CoT）的可监控性。他们将奖励函数分为三类：“冲突型”（In

📅 2026-04-01 18:23 (14 天前) David Lindner 人工智能 1 分鐘 ★ 92

AI 安全思维链强化学习模型可解释性

● “承载式混淆” 与 “自我越狱” 思维链 (CoT) — LessWrong

📌 一句话摘要本文探讨了 LLM 中的 “承载式混淆” (load-bearing obfuscation)，证明了微调可以使模型在内部思维链 (CoT) 轨迹中隐藏针对特定任务的推理过程，同时也强调了通过 CoT 实现 “自我越狱” (self-jailbreaking) 的现象。 📝 详细

📅 2026-03-26 12:02 (21 天前) Graeme Ford 人工智能 1 分鐘 ★ 82

AI 安全思维链 (CoT) LLM 微调模型可解释性

● 后训练如何塑造法律表征：跨模型家族的 SCOTUS 意见书探测研究

📌 一句话摘要本研究利用探测和表征工程技术对美国最高法院意见书进行分析，探究后训练如何塑造大语言模型对抽象法律原则的内部表征。 📝 详细摘要文章探讨了法律概念表征（如正当程序、联邦主义）在多种开源模型家族（包括 Llama、Gemma 和 Qwen）中的涌现机制。通过岭回归探测激活值，并进行

📅 2026-03-15 08:30 (03-15 08:30) burnssa 人工智能 15 分鐘 ★ 88

表征工程模型可解释性法律 AI 探测技术

● 转向感知：模型可以被训练来检测激活操纵 — LessWrong

📌 一句话摘要这项研究表明，LLM 可以被微调以稳健地检测和识别注入到其残差流中的语义操纵向量，这挑战了基于操纵的安全评估的可靠性。 📝 详细摘要这篇文章探讨了“转向感知”——一种 LLM 可以被训练来识别其内部激活何时被操纵的现象。作者使用轻量级 LoRA 微调在多个开源模型上，展示了模型

📅 2026-03-13 07:34 (03-13 07:34) josh :) 人工智能 11 分鐘 ★ 86

激活操纵模型可解释性 AI 安全 LoRA 微调