SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (719)
★ 收藏 (0)
🤖 人工智能 (607)
📊 商业科技 (52)
💻 软件编程 (47)
🎨 产品设计 (8)
📁 AI 产品 (6)
篩選中:
🏷️ 稀疏自编码器
共 3 篇
✕ 清除篩選
720
全部文章
719
未讀
37
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(03-13 00:00)
BestBlogs 精選 (720)
🏷️ 熱門標籤
AI Agent
126
OpenClaw
59
AI 智能体
43
Claude Code
32
软件工程
31
Anthropic
31
AI 基础设施
29
AI 安全
25
RAG
25
开发者工具
24
软件开发
22
LLM
21
OpenAI
20
AI 编程
16
NVIDIA
15
生成式 AI
15
MCP
14
强化学习
14
开源
14
Gemini
14
●
Martian 可解释性挑战:可解释性领域的核心问题 — LessWrong
📌 一句话摘要 Martian 设立的 100 万美元可解释性奖金旨在解决该领域在泛化性和实用性方面的失败,重点关注代码生成领域,因为形式语义为机械可解释性提供了可验证的基准真相。 📝 详细摘要 本文是“Martian 可解释性挑战”的宣言,这是一项耗资 100 万美元的计划,旨在将机械可解释性
📅 2026-03-12 01:41
(1 天前)
fbarez
人工智能
2 分鐘
★ 86
机械可解释性
AI 安全
代码生成
模型评估
●
让 Claude 进行自主研究以改进 SAE — LessWrong
📌 一句话摘要 本文探讨了利用 Claude 作为自主研究智能体来优化稀疏自编码器 (SAE) 架构,通过重新发现并改进经典的字典学习技术,在合成基准测试中获得了近乎完美的评分。 📝 详细摘要 作者详细介绍了一项实验,任务是让 Claude 在 SynthSAEBench-16k 基准测试中提高
📅 2026-03-11 02:52
(1 天前)
chanind
人工智能
15 分鐘
★ 89
稀疏自编码器
AI 智能体
机械可解释性
LISTA
●
通过转向操控选择性降低 Gemma 3 27B 的评估意识和谋杀意图 — LessWrong
📌 一句话摘要 本文探讨了利用稀疏自编码器 (SAEs) 识别并操控 Gemma 3 27B 中与评估意识和有害意图相关的特征,揭示了关于模型诚实性以及在较小模型中进行操控的局限性。 📝 详细摘要 作者使用稀疏自编码器 (SAEs) 对 Google 的 Gemma 3 27B 模型进行了可解释
📅 2026-03-11 03:51
(1 天前)
Matthias Murdych
人工智能
2 分鐘
★ 82
Gemma 3
稀疏自编码器
模型操控
AI 安全