搜尋結果 — SuperPortia 閱讀

全部未讀 (217) ★ 收藏 (0) 🤖 人工智能 (191) 💻 软件编程 (12) 📊 商业科技 (10) 🎨 产品设计 (4)

篩選中: 🏷️ 有监督微调共 1 篇 ✕ 清除篩選

146

今日新增

📡 Poller 最後抓取: 7 分鐘前 (03-11 08:00)

BestBlogs �� (217)

🏷️ 熱門標籤

AI Agent 30 OpenClaw 20 AI 智能体 17 软件工程 11 Claude Code 10 强化学习 9 AI 基础设施 9 Gemini 8 LLM 7 开源项目 7 RAG 7 Gemini Embedding 2 7 AI 编程 6 MCP 6 AI 安全 6 Anthropic 6 Google DeepMind 6 OpenAI 5 开源 5 Google Workspace 5

● [论文] 我们何时能信任不可信的监控？跨合谋策略的安全案例草案 — LessWrong

📌 一句话摘要这项研究将“被动自我识别”确定为一种强有力的新型合谋策略，它显著削弱了使用不可信 AI 模型相互监控的安全性。 📝 详细摘要本文深入探讨了“不可信监控”这一技术领域，这是一种由一个 AI 模型监控另一个模型输出的 AI 安全协议。研究人员引入了“被动自我识别”——一种监控器在没

📅 2026-03-11 01:28 (6 小時前) Nelson Gardner-Challis 人工智能 2 分鐘 ★ 88

AI 安全 AI 控制不可信监控合谋策略