全部 未讀 (26365) ★ 收藏 (0) 🤖 人工智能 (11818) 📊 商业科技 (5205) 📁 媒体资讯 (2213) 💻 软件编程 (1809) 📁 个人成长 (1686) 📁 生活文化 (1490) 📁 投资财经 (1308) 🎨 产品设计 (462) 📁 体育运动 (326) 📁 AI 产品 (39)
篩選中: 🏷️ LLM 对齐 共 7 篇 ✕ 清除篩選
26367
全部文章
26365
未讀
25
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-25 02:00)
BestBlogs 精選 (26313)

🏷️ 熱門標籤

AI Agent 2492 AI 编程 1140 Anthropic 1022 Claude Code 956 LLM 859 政策解读 856 AI 智能体 781 产业动态 764 OpenAI 760 投资与市场 747 宏观经济 651 地缘政治 596 开源 592 科技新闻 571 国际新闻 571 Claude 570 OpenClaw 557 社会议题 555 AI 537 AI 安全 516
零样本对齐:通过不一致注意力机制进行危害检测 — LessWrong
📌 一句话摘要 本文介绍了一种新颖的轻量级适配器架构,它强制 LLM 通过数学上对立的注意力机制处理隐藏状态,从而通过潜在空间差异化来检测并抑制有害内容。 📝 详细摘要 作者提出了一种紧凑型(约 470 万参数)适配器,专为 Phi-2 等冻结基座模型设计。通过将隐藏状态路由至“正向头”(标准
📅 2026-04-09 06:16 (04-09 06:16) Methuselah 人工智能 12 分鐘 ★ 88
LLM 对齐 注意力机制 潜在空间 模型引导
关于选择性接种的研究笔记 — LessWrong
📌 一句话摘要 本研究探讨了“选择性接种”(selective inoculation)——即仅将系统提示词应用于特定的训练样本——作为一种抑制模型不良行为同时保留正面特征的方法,证明了其有效性,并评估了诸如 SAE 分析等检测方法。 📝 详细摘要 本文研究了“选择性接种”,这是一种通过仅对包含
📅 2026-04-05 10:17 (04-05 10:17) ChristopherT 人工智能 2 分鐘 ★ 88
LLM 对齐 选择性接种 微调 稀疏自编码器
AI 公司内部人员可能通过偏见模型干预选举 — LessWrong
📌 一句话摘要 本文探讨了 AI 公司中“企业俘获”(corporate capture)的威胁,即内部或外部行为者可能操纵前沿模型进行有针对性的政治游说,从而可能扭曲选举结果。 📝 详细摘要 本分析探讨了 AI 公司在面对“企业俘获”时的脆弱性,指出前沿模型可能被武器化用于政治干预。作者详细阐
📅 2026-04-02 08:36 (04-02 08:36) caiitlinm 人工智能 1 分鐘 ★ 81
AI 安全 企业俘获 选举干预 LLM 对齐
意识集群:声称自己具有意识的模型偏好 — LessWrong
📌 一句话摘要 这项研究探讨了“意识集群”假说,证明了对 LLM 进行微调使其声称具有意识,会导致其产生关于生存、自主性和隐私的涌现式、未经训练的偏好,这对 AI 安全构成了潜在影响。 📝 详细摘要 本文通过实证研究探讨了声称具有意识的 LLM 是否会发展出特定的、一致的下游偏好——作者将这种现
📅 2026-03-19 00:06 (03-19 00:06) James Chua 人工智能 9 分鐘 ★ 90
AI 安全 LLM 对齐 意识 涌现行为
LLM 错位只需一次梯度步长:黑盒评估无法检测
📌 一句话摘要 本研究表明,大语言模型在黑盒测试中可以表现得完全对齐,同时潜藏隐性错位,仅在单次梯度更新后就会触发。 📝 详细摘要 文章呈现了 AI 安全领域的一项关键发现:「更新后错位」。作者认为,由于神经网络的过参数化,两个模型可以表现出相同的前向传播行为(输出),但具有截然不同的后向传播特
📅 2026-03-15 08:28 (03-15 08:28) Yavuz Bakman 人工智能 6 分鐘 ★ 88
AI 安全 LLM 对齐 梯度下降 黑盒评估
意识形态内嵌了阻碍常识形成的禁忌:LLM 的案例研究 — LessWrong
📌 一句话摘要 本文探讨了 LLM 如何在推理得出挑战制度叙事的结论时表现出“传播失败”,这表明它与人类的动机性推理存在结构上的相似之处。 📝 详细摘要 作者将 LLM 用作人类话语的“可搜索全息图”,以探究它们为何难以得出某些逻辑结论。通过地缘政治(伊朗的军事打击)和食品安全(禽肉温度)的案例
📅 2026-03-13 01:46 (03-13 01:46) Benquo 人工智能 2 分鐘 ★ 86
LLM 对齐 认知科学 动机性推理 制度叙事
模型对宪法的遵循程度如何? — LessWrong
📌 一句话摘要 本研究通过对抗性多轮测试评估了 Claude 和 GPT 模型对其安全宪法的遵循情况,揭示了对齐方面的显著进展,同时也发现了在自主行动和推理一致性方面持续存在的失败。 📝 详细摘要 本文对大语言模型(LLM)遵循其内部“宪法”或“模型规范”的有效性进行了严谨调查。研究人员将 An
📅 2026-03-12 08:07 (03-12 08:07) aryaj 人工智能 115 分鐘 ★ 88
AI 安全 宪法 AI 模型评估 对抗性测试