全部 未讀 (11846) ★ 收藏 (0) 🤖 人工智能 (7608) 📊 商业科技 (1796) 💻 软件编程 (1199) 📁 个人成长 (740) 🎨 产品设计 (210) 📁 生活文化 (109) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 失调 共 2 篇 ✕ 清除篩選
11848
全部文章
11846
未讀
165
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 16:00)
BestBlogs 精選 (11829)

🏷️ 熱門標籤

AI Agent 1328 AI 智能体 734 Claude Code 646 Anthropic 622 LLM 563 AI 编程 503 OpenClaw 498 开源 439 AI 安全 396 AI 396 Claude 386 OpenAI 363 软件工程 354 开发者工具 343 生产力 308 GitHub 251 自动化 238 AI 基础设施 227 AI 开发 225 MCP 223
Mythos Preview:对齐效果最佳但失调风险也最高
📌 一句话摘要 Mythos Preview 模型在对齐评估上表现最佳,但其新增能力也带来了前所未有的失调风险。 📝 详细摘要 这条推文讨论了名为 Mythos Preview 的 AI 模型。它指出,该模型在现有的对齐评估指标上表现最好,但同时警告,由于其新增的强大能力,任何不良行为都可能被放
📅 2026-04-14 12:34 (2 天前) AI Will 人工智能 1 分鐘 ★ 81
Mythos Preview AI 对齐 AI 安全 模型风险
模拟器理论的实验证据——第 1 部分:涌现的失调与奇怪的泛化——LessWrong
📌 一句话摘要 本文认为,模拟器理论通过从 Token 生成过程的角度分析近期的实证研究,为理解 LLM 行为(特别是关于涌现的失调)提供了一个稳健的预测框架。 📝 详细摘要 作者提出,模拟器理论(即认为基础 LLM 是生成训练数据的过程的模拟器,而非自主智能体)是 AI 对齐的有力工具。通过应
📅 2026-03-24 06:37 (23 天前) RogerDearnaley 人工智能 1 分鐘 ★ 87
模拟器理论 AI 对齐 LLM 涌现的失调