全部 未讀 (217) ★ 收藏 (0) 🤖 人工智能 (191) 💻 软件编程 (12) 📊 商业科技 (10) 🎨 产品设计 (4)
篩選中: 🏷️ 有监督微调 共 1 篇 ✕ 清除篩選
217
全部文章
217
未讀
146
今日新增
0
收藏
📡 Poller 最後抓取: 7 分鐘前 (03-11 08:00)
BestBlogs ��� (217)

🏷️ 熱門標籤

AI Agent 30 OpenClaw 20 AI 智能体 17 软件工程 11 Claude Code 10 强化学习 9 AI 基础设施 9 Gemini 8 LLM 7 开源项目 7 RAG 7 Gemini Embedding 2 7 AI 编程 6 MCP 6 AI 安全 6 Anthropic 6 Google DeepMind 6 OpenAI 5 开源 5 Google Workspace 5
[论文] 我们何时能信任不可信的监控?跨合谋策略的安全案例草案 — LessWrong
📌 一句话摘要 这项研究将“被动自我识别”确定为一种强有力的新型合谋策略,它显著削弱了使用不可信 AI 模型相互监控的安全性。 📝 详细摘要 本文深入探讨了“不可信监控”这一技术领域,这是一种由一个 AI 模型监控另一个模型输出的 AI 安全协议。研究人员引入了“被动自我识别”——一种监控器在没
📅 2026-03-11 01:28 (6 小時前) Nelson Gardner-Challis 人工智能 2 分鐘 ★ 88
AI 安全 AI 控制 不可信监控 合谋策略