全部 未讀 (21636) ★ 收藏 (0) 🤖 人工智能 (11175) 📊 商业科技 (4465) 💻 软件编程 (1685) 📁 个人成长 (1606) 📁 生活文化 (860) 📁 媒体资讯 (828) 📁 投资财经 (533) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 模型审计 共 3 篇 ✕ 清除篩選
21638
全部文章
21636
未讀
225
今日新增
0
收藏
📡 Poller 最後抓取: 29 分鐘前 (06-08 22:00)
BestBlogs 精選 (21603)

🏷️ 熱門標籤

AI Agent 2161 AI 编程 988 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 677 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 335 Agent 334 个人成长 333 GitHub 321 生产力 315
700 多个「坏模型」喂出 AI 测谎仪?Anthropic 审计神器让 AI 自曝黑料
📌 一句话摘要 Anthropic 提出「内省适配器」(Introspection Adapter),通过训练一个共享 LoRA 适配器,让微调后的语言模型用自然语言自我报告训练中习得的隐藏行为,在审计基准上达到 59% 的平均成功率,为 AI 安全审计提供了新思路。 📝 详细摘要 本文报道了
📅 2026-05-05 13:11 (05-05 13:11) 新智元 人工智能 2 分鐘 ★ 86
Anthropic 内省适配器 AI 安全 模型审计
新型 AI 审计技术中的技术权衡
📌 一句话摘要 Anthropic 探讨了一种专注于特征差异的新型 AI 审计技术的局限性及其带来的效率提升。 📝 详细摘要 这条推文是技术长文的一部分,探讨了新型 AI 模型审计技术的实际权衡。它承认,尽管该方法可能过于敏感,偶尔会将相似特征标记为不同,但其隔离差异的能力显著提高了 AI 模型
📅 2026-04-04 05:28 (04-04 05:28) Anthropic 人工智能 1 分鐘 ★ 82
AI 安全 可解释性 模型审计 Anthropic
AuditBench:在具有隐藏行为的模型上评估对齐审计技术 — LessWrong
📌 一句话摘要 AuditBench 是一个全新的基准测试,包含 56 个植入了隐藏行为的 LLM,旨在评估和改进自动化对齐审计技术及调查智能体。 📝 详细摘要 本文介绍了 AuditBench,这是一个用于对齐审计研究的标准测试平台。它由 56 个模型(基于 Llama 3.3 70B)组成,
📅 2026-03-11 03:31 (03-11 03:31) abhayesian 人工智能 16 分鐘 ★ 89
AI 对齐 模型审计 AuditBench 隐藏行为