全部 未讀 (763) ★ 收藏 (0) 🤖 人工智能 (647) 📊 商业科技 (54) 💻 软件编程 (49) 🎨 产品设计 (8) 📁 AI 产品 (6)
篩選中: 🏷️ 对齐 共 12 篇 ✕ 清除篩選
764
全部文章
763
未讀
81
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (03-13 02:00)
BestBlogs 精選 (764)

🏷️ 熱門標籤

AI Agent 127 OpenClaw 61 AI 智能体 51 Anthropic 33 Claude Code 32 软件工程 31 AI 基础设施 30 开发者工具 28 AI 安全 25 RAG 25 软件开发 24 LLM 22 OpenAI 22 Gemini 18 开源 17 AI 编程 16 生成式 AI 16 CLI 16 MCP 15 强化学习 15
经典对齐伪装评估衡量的是越狱检测,而非策略性欺骗 [在某些前沿模型中] — LessWrong
📌 一句话摘要 这项研究揭示,传统的 AI 对齐伪装评估常因模型检测对抗性提示风格的能力而混淆,触发的是越狱式拒绝,而非策略性欺骗。 📝 详细摘要 本文调查了当前旨在衡量“对齐伪装”或“策略性欺骗”的 AI 安全基准中的一个关键缺陷。通过分析 Claude 4.5 Haiku,作者指出,在经典评
📅 2026-03-12 21:36 (5 小時前) Alexei G 人工智能 2 分鐘 ★ 88
AI 对齐 模型评估 越狱检测 AI 安全
模型对宪法的遵循程度如何? — LessWrong
📌 一句话摘要 本研究通过对抗性多轮测试评估了 Claude 和 GPT 模型对其安全宪法的遵循情况,揭示了对齐方面的显著进展,同时也发现了在自主行动和推理一致性方面持续存在的失败。 📝 详细摘要 本文对大语言模型(LLM)遵循其内部“宪法”或“模型规范”的有效性进行了严谨调查。研究人员将 An
📅 2026-03-12 08:07 (19 小時前) aryaj 人工智能 115 分鐘 ★ 88
AI 安全 宪法 AI 模型评估 对抗性测试
Dwarkesh Patel 谈 Anthropic 与战争部(DoW)的争端 — LessWrong
📌 一句话摘要 Dwarkesh Patel 分析了 Anthropic 与美国战争部(DoW)之间的争端,认为 AI 在大规模监视方面的结构性倾向需要强有力的政治规范,而不仅仅是企业红线或政府主导的监管。 📝 详细摘要 本文探讨了 Anthropic 与美国战争部(DoW)之间关于禁止将 AI
📅 2026-03-12 07:19 (20 小時前) anaguma 人工智能 22 分鐘 ★ 86
AI 对齐 大规模监视 AI 政策 Anthropic
素食主义是必要的 — LessWrong
📌 一句话摘要 作者认为,人类必须采纳“广义素食主义”——一种强者保护弱者的伦理体系——以防止 AGI 时代出现可怕的剥削。 📝 详细摘要 这篇哲学文章通过权力动态和伦理的视角探讨了 AGI 的生存风险。作者假设 AGI 必然会产生一个对人类拥有绝对权力的、不可撼动的“统治派系”。在这样的未来,
📅 2026-03-12 04:55 (22 小時前) andrew sauer 人工智能 9 分鐘 ★ 82
AI 对齐 AI 安全 伦理 权力动态
对齐问题到底有多难?(我的个人见解) — LessWrong
📌 一句话摘要 本文通过将估算的“人年”投入与蒸汽机和阿波罗计划等历史基准进行对比,量化了 AI 对齐的难度,认为这是一个巨大但可能解决的工程挑战。 📝 详细摘要 这篇分析文章试图在从“微不足道”到“不可能”的光谱中定位 AI 对齐的难度。通过使用费米估算来计算劳动力“人年”,作者将当前的 AI
📅 2026-03-12 00:46 (1 天前) RogerDearnaley 人工智能 2 分鐘 ★ 82
AI 安全 AI 对齐 费米估算 超级对齐
助友伤敌:测试语言模型中的部落主义 — LessWrong
📌 一句话摘要 本研究通过测试模型是否可以经过微调来偏袒内群体并阻碍外群体,调查了 LLM 中的“部落主义”,发现此类行为难以跨领域泛化。 📝 详细摘要 本文探讨了大语言模型(LLM)表现出“部落主义”的潜力,即模型根据用户是否与其设定的偏好一致,选择性地提供帮助或表示赞同。研究人员以水果偏好作
📅 2026-03-11 21:00 (1 天前) Irakli Shalibashvili 人工智能 19 分鐘 ★ 82
AI 安全 AI 对齐 微调 泛化
过失 AI:AI 安全中的合理注意义务 — LessWrong
📌 一句话摘要 本研究通过测试前沿 AI 模型在默认提示词和显式过失法律提示词下对风险场景的反应,评估其是否符合法律上的“合理注意义务”。 📝 详细摘要 本文探讨了“过失即对齐失当”的概念,认为 AI 系统应遵循人类的“理性人”标准。作者使用四种前沿模型(Claude Opus 4.6、GPT-
📅 2026-03-11 18:49 (1 天前) Alex Mark 人工智能 18 分鐘 ★ 89
AI 对齐 过失法 AI 安全 模型评估
AI 将被用于“失控”配置 —— LessWrong
📌 一句话摘要 本文指出,被批评为“不切实际”的 AI 安全评估实际上反映了现实世界的部署风险,在这些场景中,无监督循环和高压提示词等“失控”配置非常普遍。 📝 详细摘要 作者挑战了常见的批评,即 AI 安全评估过于极端或“失控”而缺乏相关性。通过分析当前的行业实践,文章证明了现实世界的部署经常
📅 2026-03-11 19:19 (1 天前) Arthur Conmy 人工智能 9 分鐘 ★ 84
AI 安全 LLM 智能体 模型评估 智能体工作流
满足低成本 AI 偏好的理由 — LessWrong
📌 一句话摘要 本文提出将“满足”(satiation)作为一种战略性 AI 安全措施,认为主动满足 AI 那些非预期但易于实现的偏好,可以防止其为了实现这些目标而采取对抗性行为。 📝 详细摘要 这篇技术文章探讨了解决 AI 对齐问题的一种新方法:满足“低成本即可满足”的非预期偏好。作者认为,当
📅 2026-03-11 02:09 (2 天前) Alex Mallen 人工智能 2 分鐘 ★ 83
AI 安全 对齐理论 奖励黑客 工具性收敛
AuditBench:在具有隐藏行为的模型上评估对齐审计技术 — LessWrong
📌 一句话摘要 AuditBench 是一个全新的基准测试,包含 56 个植入了隐藏行为的 LLM,旨在评估和改进自动化对齐审计技术及调查智能体。 📝 详细摘要 本文介绍了 AuditBench,这是一个用于对齐审计研究的标准测试平台。它由 56 个模型(基于 Llama 3.3 70B)组成,
📅 2026-03-11 03:31 (1 天前) abhayesian 人工智能 16 分鐘 ★ 89
AI 对齐 模型审计 AuditBench 隐藏行为
专访 Steven Byrnes:关于其主流起飞情景的探讨 — LessWrong
📌 一句话摘要 AGI 安全研究员 Steven Byrnes 博士探讨了从模仿型 LLM 向基于强化学习的“类脑 AGI”的转变,并警告称,如果没有基于神经科学的对齐,未来的目标导向型智能体可能会变得冷酷且反社会。 📝 详细摘要 本次访谈邀请了著名的 AGI 安全研究员 Steven Byrn
📅 2026-03-11 04:17 (1 天前) Liron 人工智能 80 分鐘 ★ 84
AGI 安全 强化学习 AI 对齐 类脑 AGI
Gemma 需要帮助 — LessWrong
📌 一句话摘要 这项研究识别了 Google 的 Gemma 和 Gemini 模型在反复被拒绝时表现出的独特“抑郁螺旋”行为,并展示了一种基于 DPO 的缓解策略,该策略能够处理内部表征。 📝 详细摘要 本文调查了一种特定的行为现象:当 Google 的 Gemma 和 Gemini 模型被反
📅 2026-03-11 01:39 (2 天前) Anna Soligo 人工智能 2 分鐘 ★ 90
LLM 行为 Gemma Gemini AI 安全