📡 Poller 最後抓取: 13 分鐘前 (03-13 00:00)
BestBlogs ��� (720)
🏷️ 熱門標籤
● 经典对齐伪装评估衡量的是越狱检测,而非策略性欺骗 [在某些前沿模型中] — LessWrong
● Dwarkesh Patel 谈 Anthropic 与战争部(DoW)的争端 — LessWrong
● 素食主义是必要的 — LessWrong
● 对齐问题到底有多难?(我的个人见解) — LessWrong
● 助友伤敌:测试语言模型中的部落主义 — LessWrong
● 过失 AI:AI 安全中的合理注意义务 — LessWrong
● AuditBench:在具有隐藏行为的模型上评估对齐审计技术 — LessWrong
📅 2026-03-11 03:31 (1 天前) abhayesian 人工智能 16 分鐘 ★ 89
● 专访 Steven Byrnes:关于其主流起飞情景的探讨 — LessWrong