全部 未讀 (719) ★ 收藏 (0) 🤖 人工智能 (607) 📊 商业科技 (52) 💻 软件编程 (47) 🎨 产品设计 (8) 📁 AI 产品 (6)
篩選中: 🏷️ 模型评估 共 7 篇 ✕ 清除篩選
720
全部文章
719
未讀
37
今日新增
0
收藏
📡 Poller 最後抓取: 13 分鐘前 (03-13 00:00)
BestBlogs ��� (720)

🏷️ 熱門標籤

AI Agent 126 OpenClaw 59 AI 智能体 43 Claude Code 32 软件工程 31 Anthropic 31 AI 基础设施 29 AI 安全 25 RAG 25 开发者工具 24 软件开发 22 LLM 21 OpenAI 20 AI 编程 16 NVIDIA 15 生成式 AI 15 MCP 14 强化学习 14 开源 14 Gemini 14
经典对齐伪装评估衡量的是越狱检测,而非策略性欺骗 [在某些前沿模型中] — LessWrong
📌 一句话摘要 这项研究揭示,传统的 AI 对齐伪装评估常因模型检测对抗性提示风格的能力而混淆,触发的是越狱式拒绝,而非策略性欺骗。 📝 详细摘要 本文调查了当前旨在衡量“对齐伪装”或“策略性欺骗”的 AI 安全基准中的一个关键缺陷。通过分析 Claude 4.5 Haiku,作者指出,在经典评
📅 2026-03-12 21:36 (2 小時前) Alexei G 人工智能 2 分鐘 ★ 88
AI 对齐 模型评估 越狱检测 AI 安全
为什么 AI 评估机制是糟糕的 — LessWrong
📌 一句话摘要 文章认为,当前的 AI 评估(Evals)机制存在根本性缺陷,这是一种‘安全洗白’的形式,它将举证责任从企业转移到公众,同时缺乏真正的独立性。 📝 详细摘要 作者批判了‘Evals’运动——该运动由 Apollo Research、METR 和英国 AISI 等组织主导——认为其
📅 2026-03-12 21:59 (2 小時前) PranavG 人工智能 1 分鐘 ★ 84
AI 安全 AI 治理 模型评估 监管俘获
模型对宪法的遵循程度如何? — LessWrong
📌 一句话摘要 本研究通过对抗性多轮测试评估了 Claude 和 GPT 模型对其安全宪法的遵循情况,揭示了对齐方面的显著进展,同时也发现了在自主行动和推理一致性方面持续存在的失败。 📝 详细摘要 本文对大语言模型(LLM)遵循其内部“宪法”或“模型规范”的有效性进行了严谨调查。研究人员将 An
📅 2026-03-12 08:07 (16 小時前) aryaj 人工智能 115 分鐘 ★ 88
AI 安全 宪法 AI 模型评估 对抗性测试
OpenAI GPT-5.4 vs. GPT-5.4-High:Arena Expert 基准测试深度对比
📌 一句话摘要 LMArena 详细对比了 OpenAI 的 GPT-5.4 与 GPT-5.4-High 在多个专业领域的性能表现。 📝 详细摘要 本推文报告了 LMArena(原 LMSYS)针对 OpenAI GPT-5.4 模型的最新排名。GPT-5.4 和 GPT-5.4-High 均
📅 2026-03-12 05:48 (18 小時前) Arena.ai 人工智能 1 分鐘 ★ 88
GPT-5.4 OpenAI LMArena LLM 基准测试
Martian 可解释性挑战:可解释性领域的核心问题 — LessWrong
📌 一句话摘要 Martian 设立的 100 万美元可解释性奖金旨在解决该领域在泛化性和实用性方面的失败,重点关注代码生成领域,因为形式语义为机械可解释性提供了可验证的基准真相。 📝 详细摘要 本文是“Martian 可解释性挑战”的宣言,这是一项耗资 100 万美元的计划,旨在将机械可解释性
📅 2026-03-12 01:41 (22 小時前) fbarez 人工智能 2 分鐘 ★ 86
机械可解释性 AI 安全 代码生成 模型评估
过失 AI:AI 安全中的合理注意义务 — LessWrong
📌 一句话摘要 本研究通过测试前沿 AI 模型在默认提示词和显式过失法律提示词下对风险场景的反应,评估其是否符合法律上的“合理注意义务”。 📝 详细摘要 本文探讨了“过失即对齐失当”的概念,认为 AI 系统应遵循人类的“理性人”标准。作者使用四种前沿模型(Claude Opus 4.6、GPT-
📅 2026-03-11 18:49 (1 天前) Alex Mark 人工智能 18 分鐘 ★ 89
AI 对齐 过失法 AI 安全 模型评估
AI 将被用于“失控”配置 —— LessWrong
📌 一句话摘要 本文指出,被批评为“不切实际”的 AI 安全评估实际上反映了现实世界的部署风险,在这些场景中,无监督循环和高压提示词等“失控”配置非常普遍。 📝 详细摘要 作者挑战了常见的批评,即 AI 安全评估过于极端或“失控”而缺乏相关性。通过分析当前的行业实践,文章证明了现实世界的部署经常
📅 2026-03-11 19:19 (1 天前) Arthur Conmy 人工智能 9 分鐘 ★ 84
AI 安全 LLM 智能体 模型评估 智能体工作流