搜尋結果 — SuperPortia 閱讀

全部未讀 (719) ★ 收藏 (0) 🤖 人工智能 (607) 📊 商业科技 (52) 💻 软件编程 (47) 🎨 产品设计 (8) 📁 AI 产品 (6)

篩選中: 🏷️ SFT 能力诱导共 1 篇 ✕ 清除篩選

37

今日新增

📡 Poller 最後抓取: 9 分鐘前 (03-13 00:00)

BestBlogs �� (720)

🏷️ 熱門標籤

AI Agent 126 OpenClaw 59 AI 智能体 43 Claude Code 32 软件工程 31 Anthropic 31 AI 基础设施 29 AI 安全 25 RAG 25 开发者工具 24 软件开发 22 LLM 21 OpenAI 20 AI 编程 16 NVIDIA 15 生成式 AI 15 MCP 14 强化学习 14 开源 14 Gemini 14

● 模型能否通过梯度黑客手段规避 SFT 能力诱导？ — LessWrong

📌 一句话摘要本文认为，以人类主导的抗篡改技术失败为参考基准，目前的 AI 模型通过梯度黑客手段来规避 SFT 能力诱导在很大程度上是不可行的。 📝 详细摘要本文探讨了“梯度黑客”的可行性——这是一种理论场景，即内优化 AI 通过操纵自身的训练过程来隐藏危险能力（装沙袋）并确保被部署。作者将

📅 2026-03-12 02:18 (21 小時前) Patrick Leask 人工智能 1 分鐘 ★ 76

AI 安全梯度黑客内优化 SFT 能力诱导