全部 未讀 (208) ★ 收藏 (0) 🤖 人工智能 (184) 💻 软件编程 (12) 📊 商业科技 (8) 🎨 产品设计 (4)
篩選中: 🏷️ 合谋策略 共 1 篇 ✕ 清除篩選
208
全部文章
208
未讀
137
今日新增
0
收藏
📡 Poller 最後抓取: 25 分鐘前 (03-11 06:00)
BestBlogs ��� (208)

🏷️ 熱門標籤

AI Agent 30 OpenClaw 20 AI 智能体 16 软件工程 10 Claude Code 9 强化学习 9 AI 基础设施 9 Gemini 8 LLM 7 开源项目 7 RAG 7 Gemini Embedding 2 7 AI 安全 6 Google DeepMind 6 AI 编程 5 MCP 5 开源 5 Google Workspace 5 生成式 AI 5 Cursor 4
[论文] 我们何时能信任不可信的监控?跨合谋策略的安全案例草案 — LessWrong
📌 一句话摘要 这项研究将“被动自我识别”确定为一种强有力的新型合谋策略,它显著削弱了使用不可信 AI 模型相互监控的安全性。 📝 详细摘要 本文深入探讨了“不可信监控”这一技术领域,这是一种由一个 AI 模型监控另一个模型输出的 AI 安全协议。研究人员引入了“被动自我识别”——一种监控器在没
📅 2026-03-11 01:28 (4 小時前) Nelson Gardner-Challis 人工智能 2 分鐘 ★ 88
AI 安全 AI 控制 不可信监控 合谋策略