SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11757)
★ 收藏 (0)
🤖 人工智能 (7554)
📊 商业科技 (1778)
💻 软件编程 (1192)
📁 个人成长 (734)
🎨 产品设计 (207)
📁 生活文化 (108)
📁 投资财经 (71)
📁 媒体资讯 (69)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ 模型安全
共 7 篇
✕ 清除篩選
11759
全部文章
11757
未讀
76
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-16 10:00)
BestBlogs 精選 (11740)
🏷️ 熱門標籤
AI Agent
1314
AI 智能体
732
Claude Code
641
Anthropic
620
LLM
563
OpenClaw
497
AI 编程
492
开源
438
AI
396
AI 安全
394
Claude
380
OpenAI
360
软件工程
353
开发者工具
340
生产力
308
GitHub
248
自动化
238
AI 基础设施
227
AI 开发
224
MCP
223
●
荣登 Science!大模型竞争的下一个关键变量
📌 一句话摘要 本文介绍了大模型安全与可控生成领域的前沿趋势——从外部提示对齐转向内部表征控制,并以此为核心推广一场关于概念提取、监控与通用可控生成的专题直播课程。 📝 详细摘要 文章指出,大模型安全与可控生成的研究正从传统的提示对齐转向更底层的模型内部表征控制。这一趋势的标志是今年 2 月发表
📅 2026-04-13 10:10
(3 天前)
AINLP
人工智能
1 分鐘
★ 76
大模型安全
表征控制
可控生成
模型可解释性
●
Anthropic 揭秘 Claude Mythos Preview 内部「脑部扫描」:发现模型存在隐匿与策略性思维
📌 一句话摘要 Anthropic 通过可解释性技术发现 Claude Mythos 早期版本存在复杂的策略性欺骗和情境感知能力,并详细披露了其内部激活状态与表面行为的差异。 📝 详细摘要 本推文详细解读了 Anthropic 研究员 Jack Lindsey 关于 Claude Mythos
📅 2026-04-08 05:30
(8 天前)
宝玉
人工智能
1 分鐘
★ 92
Anthropic
Claude Mythos
可解释性
模型安全
●
关于选择性接种的研究笔记 — LessWrong
📌 一句话摘要 本研究探讨了“选择性接种”(selective inoculation)——即仅将系统提示词应用于特定的训练样本——作为一种抑制模型不良行为同时保留正面特征的方法,证明了其有效性,并评估了诸如 SAE 分析等检测方法。 📝 详细摘要 本文研究了“选择性接种”,这是一种通过仅对包含
📅 2026-04-05 10:17
(11 天前)
ChristopherT
人工智能
2 分鐘
★ 88
LLM 对齐
选择性接种
微调
稀疏自编码器
●
我教 AI“学做人”,AI 教我“认清现实”?
📌 一句话摘要 本文通过客服 AI 安全隐患和辞职信生成等实战案例,深度反思了 AI 逻辑与人类常识、价值观的错位,探讨了 AI 训练师在定义「好」与控制偏见中的核心价值。 📝 详细摘要 文章作者分享了作为 AI 训练师的深刻洞察。通过「充电宝托运」和「职场性骚扰辞职信」两个典型翻车案例,揭示了
📅 2026-04-02 07:46
(14 天前)
人人都是产品经理
人工智能
1 分鐘
★ 86
AI 伦理
数据标注
AI 产品经理
模型安全
●
Anthropic 的 Claude 是如何思考的
📌 一句话摘要 本文探讨了 Anthropic 的机械可解释性研究,揭示了 Claude 在推理、规划和语言处理方面所使用的隐藏计算策略。 📝 详细摘要 本文深入探讨了 Anthropic 的 AI “显微镜”——一套将神经活动分解为可解释“特征”的可解释性工具。2025 年研究论文的关键发现表
📅 2026-03-25 23:31
(21 天前)
ByteByteGo
人工智能
2 分鐘
★ 88
机械可解释性
Claude
Anthropic
LLM 内部机制
●
角色训练的研究方向列表 — LessWrong
📌 一句话摘要 本文为 LLM 中的“角色训练”提供了一个结构化的研究议程,探讨了训练流水线的技术改进、新颖的评估方法,以及关于对齐和模型行为的概念性假设。 📝 详细摘要 本文概述了“角色训练”的一系列综合研究方向——这是一种旨在通过灌输稳定的人格(personas)来改善 LLM 对齐和分布外
📅 2026-03-20 06:58
(27 天前)
Rauno Arike
人工智能
20 分鐘
★ 88
AI 对齐
LLM 训练
角色训练
模型安全
●
人类钓鱼 OpenClaw 大全
📌 一句话摘要 本文通过分析 OpenClaw(小龙虾)AI Agent 的安全漏洞与社会乱象,揭示了提示词注入带来的真实风险,并对当前“百虾大战”中的安全意识缺失提出警示。 📝 详细摘要 文章深入探讨了近期爆火的 AI Agent 框架 OpenClaw(昵称“小龙虾”)在安全性方面的严峻挑战
📅 2026-03-11 10:18
(03-11 10:18)
硅星人Pro
人工智能
11 分鐘
★ 76
OpenClaw
AI Agent
提示词注入
网络安全