SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (12239)
★ 收藏 (0)
🤖 人工智能 (7794)
📊 商业科技 (1919)
💻 软件编程 (1219)
📁 个人成长 (762)
🎨 产品设计 (214)
📁 生活文化 (131)
📁 媒体资讯 (80)
📁 投资财经 (76)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ LLM 安全对齐
共 1 篇
✕ 清除篩選
12241
全部文章
12239
未讀
111
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-18 20:00)
BestBlogs 精選 (12220)
🏷️ 熱門標籤
AI Agent
1371
AI 智能体
738
Claude Code
656
Anthropic
651
LLM
564
AI 编程
538
OpenClaw
501
开源
445
AI 安全
410
Claude
400
AI
398
OpenAI
371
软件工程
359
开发者工具
349
生产力
308
GitHub
254
自动化
241
AI 基础设施
229
AI 开发
226
MCP
225
●
文言文越狱:大模型安全护栏的模式匹配局限
📌 一句话摘要 通过文言文绕过大模型安全护栏,揭示了当前安全对齐本质上是模式匹配而非意图理解。 📝 详细摘要 李继刚解读了一篇关于大模型安全性的论文,指出大模型安全护栏主要基于现代语言训练,对文言文这类低资源语言存在防御盲区。论文提出的 CC-BOS 框架利用文言文的语法特性成功越狱主流模型,证
📅 2026-03-26 10:31
(23 天前)
李继刚
人工智能
3 分鐘
★ 86
AI 安全
大模型
文言文
越狱