搜尋結果 — SuperPortia 閱讀

全部未讀 (208) ★ 收藏 (0) 🤖 人工智能 (184) 💻 软件编程 (12) 📊 商业科技 (8) 🎨 产品设计 (4)

篩選中: 🏷️ 合谋策略共 1 篇 ✕ 清除篩選

137

今日新增

📡 Poller 最後抓取: 25 分鐘前 (03-11 06:00)

BestBlogs �� (208)

🏷️ 熱門標籤

AI Agent 30 OpenClaw 20 AI 智能体 16 软件工程 10 Claude Code 9 强化学习 9 AI 基础设施 9 Gemini 8 LLM 7 开源项目 7 RAG 7 Gemini Embedding 2 7 AI 安全 6 Google DeepMind 6 AI 编程 5 MCP 5 开源 5 Google Workspace 5 生成式 AI 5 Cursor 4

● [论文] 我们何时能信任不可信的监控？跨合谋策略的安全案例草案 — LessWrong

📌 一句话摘要这项研究将“被动自我识别”确定为一种强有力的新型合谋策略，它显著削弱了使用不可信 AI 模型相互监控的安全性。 📝 详细摘要本文深入探讨了“不可信监控”这一技术领域，这是一种由一个 AI 模型监控另一个模型输出的 AI 安全协议。研究人员引入了“被动自我识别”——一种监控器在没

📅 2026-03-11 01:28 (4 小時前) Nelson Gardner-Challis 人工智能 2 分鐘 ★ 88

AI 安全 AI 控制不可信监控合谋策略