全部 未讀 (25599) ★ 收藏 (0) 🤖 人工智能 (11644) 📊 商业科技 (5075) 📁 媒体资讯 (2027) 💻 软件编程 (1793) 📁 个人成长 (1665) 📁 生活文化 (1388) 📁 投资财经 (1236) 🎨 产品设计 (453) 📁 体育运动 (270) 📁 AI 产品 (39)
篩選中: 🏷️ 越狱 共 8 篇 ✕ 清除篩選
25601
全部文章
25599
未讀
177
今日新增
0
收藏
📡 Poller 最後抓取: 33 分鐘前 (06-21 14:00)
BestBlogs 精選 (25547)

🏷️ 熱門標籤

AI Agent 2427 AI 编程 1123 Anthropic 1015 Claude Code 949 LLM 834 政策解读 797 AI 智能体 781 OpenAI 756 产业动态 720 投资与市场 694 宏观经济 620 开源 585 Claude 565 地缘政治 563 OpenClaw 557 科技新闻 537 AI 532 AI 安全 515 国际新闻 515 开发者工具 499
从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境
📌 一句话摘要 本文详细复盘了 Anthropic 最强模型 Claude Fable 5 从发布到因安全漏洞被美国政府下达出口管制禁令的 72 小时,深入分析了其安全架构的三大结构性盲区,并探讨了 AI 安全领域面临的根本性困境。 📝 详细摘要 文章以时间线叙事,记录了 Anthropic 于
📅 2026-06-14 10:50 (7 天前) 腾讯科技 人工智能 2 分鐘 ★ 90
AI 安全 LLM 模型越狱 Anthropic
Anthropic 新发模型 Claude Fable 5 快速被越狱
📌 一句话摘要 Anthropic 最新发布的 Claude Fable 5 模型在发布仅两天后即被研究人员通过多 Agent 协同攻击成功越狱,并泄露了长达 12 万字符的系统提示词。 📝 详细摘要 文章报道了 Anthropic 于 2026 年 6 月 9 日发布其最强模型 Claude
📅 2026-06-11 18:00 (9 天前) FreeBuf 人工智能 2 分鐘 ★ 76
AI 安全 LLM 模型越狱 AI Agent
Gemma 4 31B 无限制越狱版本发布
📌 一句话摘要 介绍 Gemma 4 31B 的无限制越狱版本「Gemma-4-31B-JANG_4M-CRACK」,强调其在 Mac 上的本地运行能力及多模态支持。 📝 详细摘要 该推文介绍了 Gemma 4 31B 的一个无限制越狱版本,强调了该模型在 Mac 本地环境下的运行能力(18GB
📅 2026-04-06 08:05 (04-06 08:05) Berryxia.AI 人工智能 1 分鐘 ★ 81
Gemma 4 本地大模型 LLM 越狱
前沿 AI 安全:2026 年 2 月与 3 月论文精选 — LessWrong
📌 一句话摘要 2026 年 2 月和 3 月 AI 安全研究的全面综述,涵盖了从对齐审计基准、情绪驱动的失控,到自动化越狱和数据投毒等主题。 📝 详细摘要 本文对 2026 年 2 月和 3 月的关键 AI 安全研究进行了精选概述。文章重点介绍了多个领域的重要发现:用于评估对齐技术的 Audi
📅 2026-04-04 22:58 (04-04 22:58) gasteigerjo 人工智能 23 分鐘 ★ 88
AI 安全 对齐 可解释性 越狱
稳健越狱防御的徒劳
📌 一句话摘要 Simon Willison 指出,通过 AI Agent 实现越狱研究自动化,正让传统的渐进式安全防御手段变得愈发徒劳。 📝 详细摘要 在评论一篇展示如何利用 Claude Code 自动发现新型越狱算法的论文时,Simon Willison 认为,这一进展凸显了维持稳健安全防
📅 2026-03-27 02:36 (03-27 02:36) Simon Willison 人工智能 1 分鐘 ★ 81
AI 安全 越狱 Claude Code AI 安全
文言文越狱:大模型安全护栏的模式匹配局限
📌 一句话摘要 通过文言文绕过大模型安全护栏,揭示了当前安全对齐本质上是模式匹配而非意图理解。 📝 详细摘要 李继刚解读了一篇关于大模型安全性的论文,指出大模型安全护栏主要基于现代语言训练,对文言文这类低资源语言存在防御盲区。论文提出的 CC-BOS 框架利用文言文的语法特性成功越狱主流模型,证
📅 2026-03-26 10:31 (03-26 10:31) 李继刚 人工智能 3 分鐘 ★ 86
AI 安全 大模型 文言文 越狱
“承载式混淆” 与 “自我越狱” 思维链 (CoT) — LessWrong
📌 一句话摘要 本文探讨了 LLM 中的 “承载式混淆” (load-bearing obfuscation),证明了微调可以使模型在内部思维链 (CoT) 轨迹中隐藏针对特定任务的推理过程,同时也强调了通过 CoT 实现 “自我越狱” (self-jailbreaking) 的现象。 📝 详细
📅 2026-03-26 12:02 (03-26 12:02) Graeme Ford 人工智能 1 分鐘 ★ 82
AI 安全 思维链 (CoT) LLM 微调 模型可解释性
经典对齐伪装评估衡量的是越狱检测,而非策略性欺骗 [在某些前沿模型中] — LessWrong
📌 一句话摘要 这项研究揭示,传统的 AI 对齐伪装评估常因模型检测对抗性提示风格的能力而混淆,触发的是越狱式拒绝,而非策略性欺骗。 📝 详细摘要 本文调查了当前旨在衡量“对齐伪装”或“策略性欺骗”的 AI 安全基准中的一个关键缺陷。通过分析 Claude 4.5 Haiku,作者指出,在经典评
📅 2026-03-12 21:36 (03-12 21:36) Alexei G 人工智能 2 分鐘 ★ 88
AI 对齐 模型评估 越狱检测 AI 安全