SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (719)
★ 收藏 (0)
🤖 人工智能 (607)
📊 商业科技 (52)
💻 软件编程 (47)
🎨 产品设计 (8)
📁 AI 产品 (6)
篩選中:
🏷️ 对抗性测试
共 1 篇
✕ 清除篩選
720
全部文章
719
未讀
37
今日新增
0
收藏
📡 Poller
最後抓取:
10 分鐘前
(03-13 00:00)
BestBlogs ��� (720)
🏷️ 熱門標籤
AI Agent
126
OpenClaw
59
AI 智能体
43
Claude Code
32
软件工程
31
Anthropic
31
AI 基础设施
29
AI 安全
25
RAG
25
开发者工具
24
软件开发
22
LLM
21
OpenAI
20
AI 编程
16
NVIDIA
15
生成式 AI
15
MCP
14
强化学习
14
开源
14
Gemini
14
●
模型对宪法的遵循程度如何? — LessWrong
📌 一句话摘要 本研究通过对抗性多轮测试评估了 Claude 和 GPT 模型对其安全宪法的遵循情况,揭示了对齐方面的显著进展,同时也发现了在自主行动和推理一致性方面持续存在的失败。 📝 详细摘要 本文对大语言模型(LLM)遵循其内部“宪法”或“模型规范”的有效性进行了严谨调查。研究人员将 An
📅 2026-03-12 08:07
(16 小時前)
aryaj
人工智能
115 分鐘
★ 88
AI 安全
宪法 AI
模型评估
对抗性测试