📡 Poller 最後抓取: 33 分鐘前 (06-21 14:00)
BestBlogs 精選 (25547)
🏷️ 熱門標籤
● 从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境
● Anthropic 新发模型 Claude Fable 5 快速被越狱
● Gemma 4 31B 无限制越狱版本发布
● 前沿 AI 安全:2026 年 2 月与 3 月论文精选 — LessWrong
● 稳健越狱防御的徒劳
📅 2026-03-27 02:36 (03-27 02:36) Simon Willison 人工智能 1 分鐘 ★ 81
● 文言文越狱:大模型安全护栏的模式匹配局限
● “承载式混淆” 与 “自我越狱” 思维链 (CoT) — LessWrong
● 经典对齐伪装评估衡量的是越狱检测,而非策略性欺骗 [在某些前沿模型中] — LessWrong