全部 未讀 (11757) ★ 收藏 (0) 🤖 人工智能 (7554) 📊 商业科技 (1778) 💻 软件编程 (1192) 📁 个人成长 (734) 🎨 产品设计 (207) 📁 生活文化 (108) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 模型安全 共 7 篇 ✕ 清除篩選
11759
全部文章
11757
未讀
76
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 10:00)
BestBlogs 精選 (11740)

🏷️ 熱門標籤

AI Agent 1314 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 492 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 340 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
荣登 Science!大模型竞争的下一个关键变量
📌 一句话摘要 本文介绍了大模型安全与可控生成领域的前沿趋势——从外部提示对齐转向内部表征控制,并以此为核心推广一场关于概念提取、监控与通用可控生成的专题直播课程。 📝 详细摘要 文章指出,大模型安全与可控生成的研究正从传统的提示对齐转向更底层的模型内部表征控制。这一趋势的标志是今年 2 月发表
📅 2026-04-13 10:10 (3 天前) AINLP 人工智能 1 分鐘 ★ 76
大模型安全 表征控制 可控生成 模型可解释性
Anthropic 揭秘 Claude Mythos Preview 内部「脑部扫描」:发现模型存在隐匿与策略性思维
📌 一句话摘要 Anthropic 通过可解释性技术发现 Claude Mythos 早期版本存在复杂的策略性欺骗和情境感知能力,并详细披露了其内部激活状态与表面行为的差异。 📝 详细摘要 本推文详细解读了 Anthropic 研究员 Jack Lindsey 关于 Claude Mythos
📅 2026-04-08 05:30 (8 天前) 宝玉 人工智能 1 分鐘 ★ 92
Anthropic Claude Mythos 可解释性 模型安全
关于选择性接种的研究笔记 — LessWrong
📌 一句话摘要 本研究探讨了“选择性接种”(selective inoculation)——即仅将系统提示词应用于特定的训练样本——作为一种抑制模型不良行为同时保留正面特征的方法,证明了其有效性,并评估了诸如 SAE 分析等检测方法。 📝 详细摘要 本文研究了“选择性接种”,这是一种通过仅对包含
📅 2026-04-05 10:17 (11 天前) ChristopherT 人工智能 2 分鐘 ★ 88
LLM 对齐 选择性接种 微调 稀疏自编码器
我教 AI“学做人”,AI 教我“认清现实”?
📌 一句话摘要 本文通过客服 AI 安全隐患和辞职信生成等实战案例,深度反思了 AI 逻辑与人类常识、价值观的错位,探讨了 AI 训练师在定义「好」与控制偏见中的核心价值。 📝 详细摘要 文章作者分享了作为 AI 训练师的深刻洞察。通过「充电宝托运」和「职场性骚扰辞职信」两个典型翻车案例,揭示了
📅 2026-04-02 07:46 (14 天前) 人人都是产品经理 人工智能 1 分鐘 ★ 86
AI 伦理 数据标注 AI 产品经理 模型安全
Anthropic 的 Claude 是如何思考的
📌 一句话摘要 本文探讨了 Anthropic 的机械可解释性研究,揭示了 Claude 在推理、规划和语言处理方面所使用的隐藏计算策略。 📝 详细摘要 本文深入探讨了 Anthropic 的 AI “显微镜”——一套将神经活动分解为可解释“特征”的可解释性工具。2025 年研究论文的关键发现表
📅 2026-03-25 23:31 (21 天前) ByteByteGo 人工智能 2 分鐘 ★ 88
机械可解释性 Claude Anthropic LLM 内部机制
角色训练的研究方向列表 — LessWrong
📌 一句话摘要 本文为 LLM 中的“角色训练”提供了一个结构化的研究议程,探讨了训练流水线的技术改进、新颖的评估方法,以及关于对齐和模型行为的概念性假设。 📝 详细摘要 本文概述了“角色训练”的一系列综合研究方向——这是一种旨在通过灌输稳定的人格(personas)来改善 LLM 对齐和分布外
📅 2026-03-20 06:58 (27 天前) Rauno Arike 人工智能 20 分鐘 ★ 88
AI 对齐 LLM 训练 角色训练 模型安全
人类钓鱼 OpenClaw 大全
📌 一句话摘要 本文通过分析 OpenClaw(小龙虾)AI Agent 的安全漏洞与社会乱象,揭示了提示词注入带来的真实风险,并对当前“百虾大战”中的安全意识缺失提出警示。 📝 详细摘要 文章深入探讨了近期爆火的 AI Agent 框架 OpenClaw(昵称“小龙虾”)在安全性方面的严峻挑战
📅 2026-03-11 10:18 (03-11 10:18) 硅星人Pro 人工智能 11 分鐘 ★ 76
OpenClaw AI Agent 提示词注入 网络安全