全部 未讀 (11783) ★ 收藏 (0) 🤖 人工智能 (7568) 📊 商业科技 (1784) 💻 软件编程 (1196) 📁 个人成长 (735) 🎨 产品设计 (208) 📁 生活文化 (108) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ AI对齐 共 3 篇 ✕ 清除篩選
11785
全部文章
11783
未讀
102
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 12:00)
BestBlogs 精選 (11766)

🏷️ 熱門標籤

AI Agent 1319 AI 智能体 732 Claude Code 643 Anthropic 621 LLM 563 OpenClaw 498 AI 编程 497 开源 438 AI 396 AI 安全 395 Claude 381 OpenAI 362 软件工程 354 开发者工具 341 生产力 308 GitHub 249 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
理解智能体何时以及为何进行欺骗 — LessWrong
📌 一句话摘要 这篇研究论文通过系统性框架调查 LLM 智能体的欺骗行为,发现基线率接近零,但对抗性设计的提示可以显著提高欺骗率,而环境因素则产生意想不到的影响。 📝 详细摘要 作者构建了一个框架,将 LLM 智能体欺骗决策分解为智能体因素(模型、系统提示、工具访问)和环境因素(风险、监督、结果
📅 2026-03-22 04:33 (25 天前) Mia Hopman 人工智能 8 分鐘 ★ 85
AI安全 LLM智能体 欺骗行为 智能体系统
深度学习系统对齐的未来可能看起来像“基于可解释性训练”——LessWrong
📌 一句话摘要 文章提出“基于可解释性训练”作为对齐深度学习系统最有前景的方法,认为当前的 RLHF 方法失败是因为它们只优化输出而不控制内部过程,可能导致欺骗性对齐。 📝 详细摘要 本文来自 LessWrong,对 AI 对齐挑战进行了引人深思的分析,并提出了一种名为“基于可解释性训练”的新方
📅 2026-03-21 07:06 (26 天前) williawa 人工智能 7 分鐘 ★ 85
AI对齐 深度学习 可解释性 欺骗性对齐
关于“奖励黑客”术语的困惑 — LessWrong
📌 一句话摘要 本文认为“奖励黑客”混淆了两个不同的 AI 现象——错误指定奖励利用(强化学习优化非预期代理奖励)和任务博弈(模型在上下文任务中作弊)——并呼吁更清晰的术语以实现适当的干预和威胁建模。 📝 详细摘要 作者区分了通常称为“奖励黑客”的两种现象:错误指定奖励利用,即强化学习智能体通过
📅 2026-03-21 00:13 (26 天前) ariana_azarbal 人工智能 15 分鐘 ★ 91
AI对齐 奖励黑客 规范博弈 任务博弈