全部 未讀 (763) ★ 收藏 (0) 🤖 人工智能 (647) 📊 商业科技 (54) 💻 软件编程 (49) 🎨 产品设计 (8) 📁 AI 产品 (6)
篩選中: 🏷️ 对抗性训练 共 1 篇 ✕ 清除篩選
764
全部文章
763
未讀
81
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (03-13 02:00)
BestBlogs 精選 (764)

🏷️ 熱門標籤

AI Agent 127 OpenClaw 61 AI 智能体 51 Anthropic 33 Claude Code 32 软件工程 31 AI 基础设施 30 开发者工具 28 AI 安全 25 RAG 25 软件开发 24 LLM 22 OpenAI 22 Gemini 18 开源 17 AI 编程 16 生成式 AI 16 CLI 16 MCP 15 强化学习 15
AuditBench:在具有隐藏行为的模型上评估对齐审计技术 — LessWrong
📌 一句话摘要 AuditBench 是一个全新的基准测试,包含 56 个植入了隐藏行为的 LLM,旨在评估和改进自动化对齐审计技术及调查智能体。 📝 详细摘要 本文介绍了 AuditBench,这是一个用于对齐审计研究的标准测试平台。它由 56 个模型(基于 Llama 3.3 70B)组成,
📅 2026-03-11 03:31 (1 天前) abhayesian 人工智能 16 分鐘 ★ 89
AI 对齐 模型审计 AuditBench 隐藏行为