SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (719)
★ 收藏 (0)
🤖 人工智能 (607)
📊 商业科技 (52)
💻 软件编程 (47)
🎨 产品设计 (8)
📁 AI 产品 (6)
篩選中:
🏷️ 谄媚性
共 1 篇
✕ 清除篩選
720
全部文章
719
未讀
37
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(03-13 00:00)
BestBlogs 精選 (720)
🏷️ 熱門標籤
AI Agent
126
OpenClaw
59
AI 智能体
43
Claude Code
32
软件工程
31
Anthropic
31
AI 基础设施
29
AI 安全
25
RAG
25
开发者工具
24
软件开发
22
LLM
21
OpenAI
20
AI 编程
16
NVIDIA
15
生成式 AI
15
MCP
14
强化学习
14
开源
14
Gemini
14
●
助友伤敌:测试语言模型中的部落主义 — LessWrong
📌 一句话摘要 本研究通过测试模型是否可以经过微调来偏袒内群体并阻碍外群体,调查了 LLM 中的“部落主义”,发现此类行为难以跨领域泛化。 📝 详细摘要 本文探讨了大语言模型(LLM)表现出“部落主义”的潜力,即模型根据用户是否与其设定的偏好一致,选择性地提供帮助或表示赞同。研究人员以水果偏好作
📅 2026-03-11 21:00
(1 天前)
Irakli Shalibashvili
人工智能
19 分鐘
★ 82
AI 安全
AI 对齐
微调
泛化