搜尋結果 — SuperPortia 閱讀

全部未讀 (719) ★ 收藏 (0) 🤖 人工智能 (607) 📊 商业科技 (52) 💻 软件编程 (47) 🎨 产品设计 (8) 📁 AI 产品 (6)

篩選中: 🏷️ 谄媚性共 1 篇 ✕ 清除篩選

37

今日新增

📡 Poller 最後抓取: 1 小時前 (03-13 00:00)

BestBlogs 精選 (720)

🏷️ 熱門標籤

AI Agent 126 OpenClaw 59 AI 智能体 43 Claude Code 32 软件工程 31 Anthropic 31 AI 基础设施 29 AI 安全 25 RAG 25 开发者工具 24 软件开发 22 LLM 21 OpenAI 20 AI 编程 16 NVIDIA 15 生成式 AI 15 MCP 14 强化学习 14 开源 14 Gemini 14

● 助友伤敌：测试语言模型中的部落主义 — LessWrong

📌 一句话摘要本研究通过测试模型是否可以经过微调来偏袒内群体并阻碍外群体，调查了 LLM 中的“部落主义”，发现此类行为难以跨领域泛化。 📝 详细摘要本文探讨了大语言模型（LLM）表现出“部落主义”的潜力，即模型根据用户是否与其设定的偏好一致，选择性地提供帮助或表示赞同。研究人员以水果偏好作

📅 2026-03-11 21:00 (1 天前) Irakli Shalibashvili 人工智能 19 分鐘 ★ 82

AI 安全 AI 对齐微调泛化