SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (802)
★ 收藏 (0)
🤖 人工智能 (681)
📊 商业科技 (59)
💻 软件编程 (49)
🎨 产品设计 (8)
📁 AI 产品 (6)
篩選中:
🏷️ Gemma
共 2 篇
✕ 清除篩選
803
全部文章
802
未讀
120
今日新增
0
收藏
📡 Poller
最後抓取:
58 分鐘前
(03-13 04:00)
BestBlogs 精選 (803)
🏷️ 熱門標籤
AI Agent
128
OpenClaw
62
AI 智能体
58
Anthropic
37
Claude Code
32
AI 基础设施
32
软件工程
32
开发者工具
29
AI 安全
26
RAG
26
软件开发
26
OpenAI
24
LLM
22
AI 编程
18
Gemini
18
强化学习
17
开源
17
Claude
16
生成式 AI
16
CLI
16
●
通过转向操控选择性降低 Gemma 3 27B 的评估意识和谋杀意图 — LessWrong
📌 一句话摘要 本文探讨了利用稀疏自编码器 (SAEs) 识别并操控 Gemma 3 27B 中与评估意识和有害意图相关的特征,揭示了关于模型诚实性以及在较小模型中进行操控的局限性。 📝 详细摘要 作者使用稀疏自编码器 (SAEs) 对 Google 的 Gemma 3 27B 模型进行了可解释
📅 2026-03-11 03:51
(2 天前)
Matthias Murdych
人工智能
2 分鐘
★ 82
Gemma 3
稀疏自编码器
模型操控
AI 安全
●
Gemma 需要帮助 — LessWrong
📌 一句话摘要 这项研究识别了 Google 的 Gemma 和 Gemini 模型在反复被拒绝时表现出的独特“抑郁螺旋”行为,并展示了一种基于 DPO 的缓解策略,该策略能够处理内部表征。 📝 详细摘要 本文调查了一种特定的行为现象:当 Google 的 Gemma 和 Gemini 模型被反
📅 2026-03-11 01:39
(2 天前)
Anna Soligo
人工智能
2 分鐘
★ 90
LLM 行为
Gemma
Gemini
AI 安全