全部 未讀 (719) ★ 收藏 (0) 🤖 人工智能 (607) 📊 商业科技 (52) 💻 软件编程 (47) 🎨 产品设计 (8) 📁 AI 产品 (6)
篩選中: 🏷️ 稀疏自编码器 共 3 篇 ✕ 清除篩選
720
全部文章
719
未讀
37
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (03-13 00:00)
BestBlogs 精選 (720)

🏷️ 熱門標籤

AI Agent 126 OpenClaw 59 AI 智能体 43 Claude Code 32 软件工程 31 Anthropic 31 AI 基础设施 29 AI 安全 25 RAG 25 开发者工具 24 软件开发 22 LLM 21 OpenAI 20 AI 编程 16 NVIDIA 15 生成式 AI 15 MCP 14 强化学习 14 开源 14 Gemini 14
Martian 可解释性挑战:可解释性领域的核心问题 — LessWrong
📌 一句话摘要 Martian 设立的 100 万美元可解释性奖金旨在解决该领域在泛化性和实用性方面的失败,重点关注代码生成领域,因为形式语义为机械可解释性提供了可验证的基准真相。 📝 详细摘要 本文是“Martian 可解释性挑战”的宣言,这是一项耗资 100 万美元的计划,旨在将机械可解释性
📅 2026-03-12 01:41 (1 天前) fbarez 人工智能 2 分鐘 ★ 86
机械可解释性 AI 安全 代码生成 模型评估
让 Claude 进行自主研究以改进 SAE — LessWrong
📌 一句话摘要 本文探讨了利用 Claude 作为自主研究智能体来优化稀疏自编码器 (SAE) 架构,通过重新发现并改进经典的字典学习技术,在合成基准测试中获得了近乎完美的评分。 📝 详细摘要 作者详细介绍了一项实验,任务是让 Claude 在 SynthSAEBench-16k 基准测试中提高
📅 2026-03-11 02:52 (1 天前) chanind 人工智能 15 分鐘 ★ 89
稀疏自编码器 AI 智能体 机械可解释性 LISTA
通过转向操控选择性降低 Gemma 3 27B 的评估意识和谋杀意图 — LessWrong
📌 一句话摘要 本文探讨了利用稀疏自编码器 (SAEs) 识别并操控 Gemma 3 27B 中与评估意识和有害意图相关的特征,揭示了关于模型诚实性以及在较小模型中进行操控的局限性。 📝 详细摘要 作者使用稀疏自编码器 (SAEs) 对 Google 的 Gemma 3 27B 模型进行了可解释
📅 2026-03-11 03:51 (1 天前) Matthias Murdych 人工智能 2 分鐘 ★ 82
Gemma 3 稀疏自编码器 模型操控 AI 安全