📚 SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (208)
★ 收藏 (0)
🤖 人工智能 (184)
💻 软件编程 (12)
📊 商业科技 (8)
🎨 产品设计 (4)
篩選中:
🏷️ 不可信监控
共 1 篇
✕ 清除篩選
208
全部文章
208
未讀
137
今日新增
0
收藏
📡 Poller
最後抓取:
26 分鐘前
(03-11 06:00)
BestBlogs ��� (208)
🏷️ 熱門標籤
AI Agent
30
OpenClaw
20
AI 智能体
16
软件工程
10
Claude Code
9
强化学习
9
AI 基础设施
9
Gemini
8
LLM
7
开源项目
7
RAG
7
Gemini Embedding 2
7
AI 安全
6
Google DeepMind
6
AI 编程
5
MCP
5
开源
5
Google Workspace
5
生成式 AI
5
Cursor
4
●
[论文] 我们何时能信任不可信的监控?跨合谋策略的安全案例草案 — LessWrong
📌 一句话摘要 这项研究将“被动自我识别”确定为一种强有力的新型合谋策略,它显著削弱了使用不可信 AI 模型相互监控的安全性。 📝 详细摘要 本文深入探讨了“不可信监控”这一技术领域,这是一种由一个 AI 模型监控另一个模型输出的 AI 安全协议。研究人员引入了“被动自我识别”——一种监控器在没
📅 2026-03-11 01:28
(4 小時前)
Nelson Gardner-Challis
人工智能
2 分鐘
★ 88
AI 安全
AI 控制
不可信监控
合谋策略