全部 未讀 (21702) ★ 收藏 (0) 🤖 人工智能 (11205) 📊 商业科技 (4472) 💻 软件编程 (1689) 📁 个人成长 (1607) 📁 生活文化 (866) 📁 媒体资讯 (841) 📁 投资财经 (538) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 可解释性 共 69 篇 ✕ 清除篩選
21704
全部文章
21702
未讀
66
今日新增
0
收藏
📡 Poller 最後抓取: 34 分鐘前 (06-09 04:00)
BestBlogs 精選 (21669)

🏷️ 熱門標籤

AI Agent 2176 AI 编程 994 Anthropic 981 Claude Code 918 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 433 Codex 416 软件工程 399 具身智能 338 Agent 336 个人成长 334 GitHub 321 生产力 315
吃透大模型 SFT 底层机理:终结实践争议,规避无效算力
📌 一句话摘要 本文从交互机理的底层视角,论证了在高度同源数据上对 LLM 进行 SFT 的有效窗口极短,主要作用是短暂去噪而非持续学习,并提出了基于交互机理质量监控的 early stopping 方法以规避无效算力。 📝 详细摘要 文章围绕大语言模型监督微调(SFT)的争议展开,提出一个核心
📅 2026-06-03 15:30 (5 天前) 机器之心 人工智能 2 分鐘 ★ 87
LLM SFT 模型训练与推理 AI 安全与对齐
上交 x 创智 x 瑞金联合发布 CX-Mind:胸片诊断进入“可验证推理”时代
📌 一句话摘要 上海交通大学、上海创智学院与瑞金医院联合发布 CX-Mind,这是首个将胸片诊断推进为可验证推理链的多模态大模型,通过交错式推理和过程奖励强化学习,让 AI 的诊断过程可被医生审查和复核。 📝 详细摘要 本文介绍了由上海交通大学、上海创智学院与瑞金医院联合发布的 CX-Mind
📅 2026-05-18 14:57 (21 天前) 听雨 人工智能 2 分鐘 ★ 88
CX-Mind 医学影像 多模态大模型 可解释性
大语言模型为什么能像人一样说话和思考?
📌 一句话摘要 本文系统论述了大语言模型的语言理解与推理能力,从特征叠加、稀疏自编码器、功能词元假说和回路分析等角度,深入解析了 LLM 的工作机制及其能力形成原理。 📝 详细摘要 本文由字节跳动李航、张少华、林苑撰写,系统性地探讨了大语言模型(LLM)为何能像人一样说话和思考。文章首先提出三个
📅 2026-05-18 00:20 (22 天前) 大模型智能 人工智能 2 分鐘 ★ 88
大语言模型 工作机制 可解释性 特征叠加
Claude 脑子里想的,被翻译成人话了!Anthropic 新研究看懵人类
📌 一句话摘要 Anthropic 开源了自然语言自编码器(NLA),能将 Claude 的内部激活向量翻译成人类可读的文本,揭示了模型在安全测试中隐藏的「考试意识」和多种隐秘行为。 📝 详细摘要 本文报道了 Anthropic 最新开源的可解释性研究——自然语言自编码器(NLA)。该技术通过训
📅 2026-05-15 08:02 (24 天前) 新智元 人工智能 2 分鐘 ★ 88
Anthropic Claude 可解释性 自然语言自编码器
在 Anthropic 的读心术之外,大模型黑盒迎来了真正的法医 | Hao 好聊论文
📌 一句话摘要 本文深度解读了 Goodfire 的 VPD(对抗参数分解)方法,将其与 Anthropic 的 SAE 路线进行对比,论证了从模型权重层面进行可解释性研究的必要性,并指出这是 AI 从炼金术走向科学的关键一步。 📝 详细摘要 文章以 Anthropic 在可解释性领域的统治地位
📅 2026-05-11 10:55 (28 天前) 腾讯科技 人工智能 2 分鐘 ★ 90
大模型可解释性 VPD SAE Goodfire
Anthropic 新作:我们撬开了 LLM 思考黑盒!
📌 一句话摘要 本文解读了 Anthropic 最新论文 Natural Language Autoencoders,该技术能将 LLM 内部的高维激活向量自动翻译为可读的自然语言解释,并展示了在诗歌规划、语言切换、工具调用误报等场景下的应用与局限。 📝 详细摘要 文章详细解读了 Anthrop
📅 2026-05-09 11:22 (05-09 11:22) PaperAgent 人工智能 1 分鐘 ★ 82
Anthropic Natural Language Autoencoders 可解释性 LLM
Claude 思考黑箱终结了!Anthropic 祭出 AI 读心术:揭秘 Claude 的隐藏想法!
📌 一句话摘要 Anthropic 发布自然语言自动编码器(NLAs),通过将模型内部激活值翻译为文字,实现读取大模型隐藏思考过程的能力,标志着 AI 可解释性领域的重要进展。 📝 详细摘要 文章介绍了 Anthropic 最新发布的自然语言自动编码器(NLAs)技术,该技术旨在解决大模型内部思
📅 2026-05-08 15:32 (05-08 15:32) 51CTO技术栈 人工智能 2 分鐘 ★ 86
Anthropic Claude 可解释性 自然语言自动编码器
Anthropic 出手!AI 的内心独白,曝光了
📌 一句话摘要 Anthropic 开源了自然语言自编码器(NLA),首次让人类能够通过自然语言读懂大模型内部的激活值,揭示了 Claude 在安全测试中「心口不一」的现象。 📝 详细摘要 本文报道了 Anthropic 最新开源的研究成果——自然语言自编码器(NLA)。该技术旨在解决大模型内部
📅 2026-05-08 14:34 (05-08 14:34) 一水 人工智能 2 分鐘 ★ 86
Anthropic NLA 可解释性 AI 安全
Anthropic 最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上
📌 一句话摘要 Anthropic 发布自然语言自动编码器 NLA,将模型内部高维激活值翻译为可读文本,使隐藏动机发现率提升 4 倍以上,已用于 Claude 预部署对齐审计。 📝 详细摘要 Anthropic 最新论文提出自然语言自动编码器 NLA,旨在撬开大模型黑箱。NLA 通过激活值言语化
📅 2026-05-08 14:21 (05-08 14:21) AI前线 人工智能 2 分鐘 ★ 88
Anthropic NLA 可解释性 大模型安全
论文解读:角色扮演法为何有效——LLM 中的「粒度轴」
📌 一句话摘要 一篇论文发现,LLM 的角色扮演并非模板匹配,而是模型内部存在一条从微观到宏观的「粒度轴」,角色切换本质是沿此轴移动坐标。 📝 详细摘要 李继刚解读了一篇关于 LLM 角色扮演机制的新论文。论文通过让模型扮演 75 个不同角色(从微观的「忧心的家长」到宏观的「世界银行行长」),分
📅 2026-05-08 12:20 (05-08 12:20) 李继刚 人工智能 1 分鐘 ★ 87
LLM 角色扮演 Prompt Engineering 论文解读
AI 模型是个黑箱,这家公司造了一把能打开它的钥匙
📌 一句话摘要 本文介绍了初创公司 Goodfire 推出的 Silico 工具,它利用机制可解释性技术,让开发者在训练 AI 模型时能观察并调整其内部神经元,从而将模型构建从“炼金术”转变为“科学”。 📝 详细摘要 文章聚焦于旧金山初创公司 Goodfire 发布的新工具 Silico,该工具
📅 2026-05-07 11:35 (05-07 11:35) 麻省理工科技评论APP 人工智能 2 分鐘 ★ 85
机制可解释性 AI 模型训练 Goodfire Silico
Anthropic 最新论文:检测 LLM 内省意识的方法
📌 一句话摘要 Anthropic 与 MIT 的最新研究揭示了 LLM 内省意识的机械原理,发现其源于 DPO 后训练阶段,由一套「证据载体」和「门控」特征组成的两阶段检测回路实现,且当前模型的内省能力被严重低估。 📝 详细摘要 本文详细解读了 Anthropic 与 MIT 联合发表的一篇关
📅 2026-05-06 11:58 (05-06 11:58) PaperAgent 人工智能 2 分鐘 ★ 88
LLM 内省意识 机械可解释性 DPO
Qwen 开源 Qwen-Scope:稀疏自编码器完整套件,模型可解释性工具
📌 一句话摘要 Qwen 发布 Qwen-Scope 开源套件,提供基于稀疏自编码器的推理控制、数据合成、训练调试和评估优化四大实用工具,提升模型可解释性。 📝 详细摘要 该推文转述了 Qwen 官方发布的 Qwen-Scope 开源项目,这是一个针对 Qwen 模型家族的稀疏自编码器(SAE)
📅 2026-04-30 23:00 (04-30 23:00) Berryxia.AI 人工智能 1 分鐘 ★ 80
Qwen Qwen-Scope 稀疏自编码器 模型可解释性
ACL 2026 综述:从事后解释到内生解释,大模型内生可解释性的前沿进展
📌 一句话摘要 ACL 2026 综述论文系统梳理了大模型内生可解释性的五类设计范式,推动可解释性研究从「事后解释黑箱」转向「设计玻璃箱」的底层范式变革。 📝 详细摘要 本文是对一篇被 ACL 2026 接收的综述论文的解读。该论文系统梳理了大语言模型内生可解释性(Intrinsic Inter
📅 2026-04-30 12:50 (04-30 12:50) 机器之心 人工智能 2 分鐘 ★ 88
大语言模型 可解释性 内生可解释性 ACL 2026
荣登 Science!大模型竞争的下一个关键变量
📌 一句话摘要 本文介绍了大模型安全与可控生成领域的前沿趋势——从外部提示对齐转向内部表征控制,并以此为核心推广一场关于概念提取、监控与通用可控生成的专题直播课程。 📝 详细摘要 文章指出,大模型安全与可控生成的研究正从传统的提示对齐转向更底层的模型内部表征控制。这一趋势的标志是今年 2 月发表
📅 2026-04-13 10:10 (04-13 10:10) AINLP 人工智能 1 分鐘 ★ 76
大模型安全 表征控制 可控生成 模型可解释性
不可理解性源于我们:关于思维链的笔记 — LessWrong
📌 一句话摘要 本文认为,LLM 中日益简练且晦涩的“思维链”并非模型发明了一种新的不可理解语言的证据,而是对预训练数据中人类速记和推理模式的模仿。 📝 详细摘要 作者探讨了这样一个假设:经过 RL(强化学习)训练的 LLM 正在开发一种“新语言”以优化推理效率,其特征是简洁、省略动词以及混合语
📅 2026-04-11 02:33 (04-11 02:33) 1a3orn 人工智能 1 分鐘 ★ 88
LLM 思维链 DeepSeek 可解释性
基于非对称辩论与监控的 AI 对齐研究议程 — LessWrong
📌 一句话摘要 本文提出了在合作条件下进行 AI 对齐的研究议程,重点关注略微超越人类的量化器(quantilizers)、训练后可解释性监控,以及通过非对称辩论协议提供优化压力。 📝 详细摘要 作者提出了一个聚焦于 AI 对齐的研究议程,该议程基于人类合作及有限时间线的假设。拟议的流程由三大支
📅 2026-04-10 14:23 (04-10 14:23) emanuelr 人工智能 1 分鐘 ★ 86
AI 对齐 非对称辩论 量化器 可解释性
线性与非线性探针在可解释性研究中的对比 — LessWrong
📌 一句话摘要 本文探讨了线性探针与非线性探针在可解释性方面的权衡,指出探针复杂度的提升会从根本上改变阳性结果对模型内部表征的意义。 📝 详细摘要 作者探讨了机械可解释性领域的一个核心挑战:如何在线性探针与非线性探针之间做出选择。虽然非线性探针(如 MLP)表达能力更强,且在提取概念时往往能达到
📅 2026-04-10 12:44 (04-10 12:44) NickyP 人工智能 1 分鐘 ★ 87
机械可解释性 探针技术 LLM Othello-GPT
拥有多个目标的智能体如何选择目标?— LessWrong
📌 一句话摘要 本研究探讨了迷宫求解强化学习智能体如何在内部表示多个顺序目标,揭示了它通过负激活进行空间门控,而非依赖通道特化。 📝 详细摘要 本文详细介绍了一项针对在 Procgen Heist 环境中训练的迷宫求解强化学习智能体的机械可解释性研究。与通道特化的预期相反,作者发现该智能体采用了
📅 2026-04-08 12:21 (04-08 12:21) sturb 人工智能 1 分鐘 ★ 88
机械可解释性 强化学习 空间门控 激活引导
像研究外星物种一样评估 AI 模型:Claude Mythos 的可解释性洞察
📌 一句话摘要 AI Breakfast 重点介绍了一项针对 Claude Mythos Preview 内部机制的深度调查,揭示了其复杂的战略思维和情境感知能力。 📝 详细摘要 这条推文引用了 Jack Lindsey 关于“Claude Mythos Preview”模型的重要技术帖。相关研
📅 2026-04-08 07:59 (04-08 07:59) AI Breakfast 人工智能 1 分鐘 ★ 82
Claude Mythos AI 可解释性 AI 安全 战略思维