📡 Poller 最後抓取: 1 小時前 (03-13 02:00)
BestBlogs 精選 (764)
🏷️ 熱門標籤
● 经典对齐伪装评估衡量的是越狱检测,而非策略性欺骗 [在某些前沿模型中] — LessWrong
● 模型对宪法的遵循程度如何? — LessWrong
● Dwarkesh Patel 谈 Anthropic 与战争部(DoW)的争端 — LessWrong
● 素食主义是必要的 — LessWrong
● 对齐问题到底有多难?(我的个人见解) — LessWrong
● 助友伤敌:测试语言模型中的部落主义 — LessWrong
● 过失 AI:AI 安全中的合理注意义务 — LessWrong
● AI 将被用于“失控”配置 —— LessWrong
● 满足低成本 AI 偏好的理由 — LessWrong
● AuditBench:在具有隐藏行为的模型上评估对齐审计技术 — LessWrong
📅 2026-03-11 03:31 (1 天前) abhayesian 人工智能 16 分鐘 ★ 89
● 专访 Steven Byrnes:关于其主流起飞情景的探讨 — LessWrong
● Gemma 需要帮助 — LessWrong