全部 未讀 (12221) ★ 收藏 (0) 🤖 人工智能 (7782) 📊 商业科技 (1917) 💻 软件编程 (1217) 📁 个人成长 (761) 🎨 产品设计 (214) 📁 生活文化 (130) 📁 媒体资讯 (80) 📁 投资财经 (76) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 可纠正性 共 2 篇 ✕ 清除篩選
12223
全部文章
12221
未讀
93
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-18 18:00)
BestBlogs 精選 (12202)

🏷️ 熱門標籤

AI Agent 1369 AI 智能体 737 Claude Code 656 Anthropic 650 LLM 564 AI 编程 536 OpenClaw 501 开源 444 AI 安全 409 Claude 400 AI 398 OpenAI 371 软件工程 359 开发者工具 348 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
为什么可纠正性很重要(如果它确实重要的话)—— LessWrong
📌 一句话摘要 本文批判了 AI 对齐领域中标准的“理性后验”可纠正性定义,并提出真正的可纠正性需要一种能够采取反直觉行动的开放心态,类似于躁狂发作期间寻求帮助的患者。 📝 详细摘要 作者挑战了将可纠正性仅仅视为“乐于接受说服”的普遍观点,认为这种定义是微不足道的,实际上是空洞的,因为它只有在一
📅 2026-03-30 18:11 (19 天前) Savannah Harlan 人工智能 21 分鐘 ★ 80
AI 对齐 可纠正性 AI 安全 理性
LLM 是否具有稳定偏好?
📌 一句话摘要 本文探讨了 LLM 对齐所需的三个关键属性:情境感知、偏好稳定性和可纠正性,认为当前训练方法未能充分培养这些属性。 📝 详细摘要 作者提出了近 AI 对齐的三个基本属性:情境感知(理解自己是 AI 模型)、偏好稳定性(跨上下文保持一致的价值观)和可纠正性(接受人类纠正)。文章认为
📅 2026-03-17 04:26 (03-17 04:26) Quentin FEUILLADE--MONTIXI 人工智能 1 分鐘 ★ 82
LLM AI 对齐 偏好稳定性 可纠正性