SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (21636)
★ 收藏 (0)
🤖 人工智能 (11175)
📊 商业科技 (4465)
💻 软件编程 (1685)
📁 个人成长 (1606)
📁 生活文化 (860)
📁 媒体资讯 (828)
📁 投资财经 (533)
🎨 产品设计 (409)
📁 AI 产品 (39)
📁 体育运动 (28)
篩選中:
🏷️ 模型审计
共 3 篇
✕ 清除篩選
21638
全部文章
21636
未讀
225
今日新增
0
收藏
📡 Poller
最後抓取:
29 分鐘前
(06-08 22:00)
BestBlogs 精選 (21603)
🏷️ 熱門標籤
AI Agent
2161
AI 编程
988
Anthropic
981
Claude Code
916
AI 智能体
780
OpenAI
745
LLM
677
开源
574
OpenClaw
557
Claude
557
AI
517
AI 安全
490
开发者工具
432
Codex
416
软件工程
399
具身智能
335
Agent
334
个人成长
333
GitHub
321
生产力
315
●
700 多个「坏模型」喂出 AI 测谎仪?Anthropic 审计神器让 AI 自曝黑料
📌 一句话摘要 Anthropic 提出「内省适配器」(Introspection Adapter),通过训练一个共享 LoRA 适配器,让微调后的语言模型用自然语言自我报告训练中习得的隐藏行为,在审计基准上达到 59% 的平均成功率,为 AI 安全审计提供了新思路。 📝 详细摘要 本文报道了
📅 2026-05-05 13:11
(05-05 13:11)
新智元
人工智能
2 分鐘
★ 86
Anthropic
内省适配器
AI 安全
模型审计
●
新型 AI 审计技术中的技术权衡
📌 一句话摘要 Anthropic 探讨了一种专注于特征差异的新型 AI 审计技术的局限性及其带来的效率提升。 📝 详细摘要 这条推文是技术长文的一部分,探讨了新型 AI 模型审计技术的实际权衡。它承认,尽管该方法可能过于敏感,偶尔会将相似特征标记为不同,但其隔离差异的能力显著提高了 AI 模型
📅 2026-04-04 05:28
(04-04 05:28)
Anthropic
人工智能
1 分鐘
★ 82
AI 安全
可解释性
模型审计
Anthropic
●
AuditBench:在具有隐藏行为的模型上评估对齐审计技术 — LessWrong
📌 一句话摘要 AuditBench 是一个全新的基准测试,包含 56 个植入了隐藏行为的 LLM,旨在评估和改进自动化对齐审计技术及调查智能体。 📝 详细摘要 本文介绍了 AuditBench,这是一个用于对齐审计研究的标准测试平台。它由 56 个模型(基于 Llama 3.3 70B)组成,
📅 2026-03-11 03:31
(03-11 03:31)
abhayesian
人工智能
16 分鐘
★ 89
AI 对齐
模型审计
AuditBench
隐藏行为