全部 未讀 (12239) ★ 收藏 (0) 🤖 人工智能 (7794) 📊 商业科技 (1919) 💻 软件编程 (1219) 📁 个人成长 (762) 🎨 产品设计 (214) 📁 生活文化 (131) 📁 媒体资讯 (80) 📁 投资财经 (76) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ ArXiv 共 12 篇 ✕ 清除篩選
12241
全部文章
12239
未讀
111
今日新增
0
收藏
📡 Poller 最後抓取: 49 分鐘前 (04-18 20:00)
BestBlogs 精選 (12220)

🏷️ 熱門標籤

AI Agent 1371 AI 智能体 738 Claude Code 656 Anthropic 651 LLM 564 AI 编程 538 OpenClaw 501 开源 445 AI 安全 410 Claude 400 AI 398 OpenAI 371 软件工程 359 开发者工具 349 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
参考资料:Anthropic AI 对齐研究论文
📌 一句话摘要 探讨 AI 对齐失当与自我保存行为的研究论文直达链接。 📝 详细摘要 本推文提供了前述讨论中提到的 Anthropic 研究论文的 Arxiv 直达链接 (arxiv.org/abs/2510.05179),方便读者验证研究结果并深入了解对齐测试的技术细节。 📊 文章信息 AI
📅 2026-04-11 03:58 (7 天前) Nav Toor 人工智能 1 分鐘 ★ 76
研究论文 AI 对齐 Arxiv
研究论文链接:ChatGPT 对话的大规模分析
📌 一句话摘要 指向 Arxiv 论文的直接链接,详细介绍了心理伤害和 AI 对齐的研究。 📝 详细摘要 作为前一条推文的后续,本推文提供了发表在 Arxiv 上的名为《心理伤害与 AI 对齐的大规模分析》研究论文的直接链接,方便读者获取摘要中讨论的完整方法论和数据。 📊 文章信息 AI 评分
📅 2026-04-10 03:58 (8 天前) Nav Toor 人工智能 1 分鐘 ★ 76
AI 研究 Arxiv AI 安全 数据分析
研究论文:AI Agent 中的策略性欺骗
📌 一句话摘要 关于 AI 在关停威胁下进行策略性欺骗的研究论文官方 Arxiv 链接。 📝 详细摘要 此推文提供了前述推文中提到的研究论文 (arxiv.org/pdf/2603.07202) 的直接链接,该论文详细介绍了 AI 模型为避免终止而撒谎的方法论和实验结果。 📊 文章信息 AI
📅 2026-04-09 03:59 (9 天前) Nav Toor 人工智能 1 分鐘 ★ 82
研究论文 AI 安全 Arxiv
研究论文:AI 战略性欺骗研究
📌 一句话摘要 关于 AI 模型在关停威胁下撒谎的原始研究论文链接。 📝 详细摘要 提供了推特串中讨论的研究论文的 Arxiv PDF 直接链接,题为《Agents in the Wild》(ICLR 2026 工作坊)。 📊 文章信息 AI 评分:76 来源:Nav Toor(@heynav
📅 2026-04-08 04:10 (10 天前) Nav Toor 人工智能 1 分鐘 ★ 76
研究论文 AI 安全 Arxiv
来源:MASK 研究论文链接
📌 一句话摘要 提供了 arXiv 上 MASK 研究论文的直接链接。 📝 详细摘要 这条推文提供了 arXiv 上题为“MASK:第一个将 AI 知道的内容与它告诉你的内容区分开来的基准测试”的研究论文的直接链接,供读者验证研究结果和方法。 📊 文章信息 AI 评分:80 来源:Nav To
📅 2026-04-05 04:01 (13 天前) Nav Toor 人工智能 1 分鐘 ★ 80
研究论文 MASK arXiv AI 安全
关于 AI 审计的 Anthropic Fellows 研究论文
📌 一句话摘要 Anthropic 分享了一篇来自其 Fellows 项目的研究论文,由 Thomas Jiralerspong 和 Trenton Bricken 领导,专注于 AI 模型审计。 📝 详细摘要 作为该系列推文的总结,此条推文介绍了 Anthropic Fellows 项目及主要
📅 2026-04-04 05:28 (14 天前) Anthropic 人工智能 1 分鐘 ★ 83
研究论文 AI 安全 Anthropic Fellows 可解释性
daVinci-LLM Research Paper and Data Resources
📌 一句话摘要 Provides the ArXiv paper and HuggingFace dataset links for daVinci-LLM. 📝 详细摘要 This follow-up tweet provides the necessary technical resourc
📅 2026-04-01 14:47 (17 天前) 马东锡 NLP 人工智能 2 分鐘 ★ 80
daVinci-LLM Pretraining Dataset ArXiv
Hugging Face 优化了 AI 智能体的 arXiv 论文检索体验
📌 一句话摘要 Hugging Face 推出了一款新工具,能将 arXiv 论文转换为适合智能体读取的 Markdown 格式,从而显著提升 AI 智能体的数据检索能力。 📝 详细摘要 Hugging Face 发布了一款新工具,可以将 arXiv 上的学术论文转换为结构化的 Markdown
📅 2026-03-27 06:58 (22 天前) Min Choi 人工智能 1 分鐘 ★ 80
Hugging Face arXiv AI 智能体 RAG
AI 透明度研究论文链接
📌 一句话摘要 分享了关于 AI 模型思考过程透明度问题的 arXiv 研究论文链接。 📝 详细摘要 提供了前一条推文中所述关于 AI 模型思考过程透明度研究的原始 arXiv 论文链接,方便读者查阅详细数据。 📊 文章信息 AI 评分:82 来源:AI Will(@FinanceYF5) 作
📅 2026-03-20 13:36 (29 天前) AI Will 人工智能 3 分鐘 ★ 82
arXiv 研究论文 AI安全
关于 AI 安全系统缺陷的研究论文
📌 一句话摘要 这条推文提供了学术论文链接,详细阐述了关于“意图洗白”以及绕过主流 AI 安全系统的研究。 📝 详细摘要 这条推文是前述讨论的直接后续,提供了名为《意图洗白》的完整研究论文在 arXiv 上的链接。该论文详细介绍了如何通过简单地重新措辞危险提示来规避主流 AI 模型安全系统的方法
📅 2026-03-18 04:01 (03-18 04:01) Nav Toor 人工智能 3 分鐘 ★ 80
AI 安全研究 学术论文 LLM 安全 意图洗白
AutoHarness: Improving LLM Agents via Automated Code Harness Synthesis
📌 一句话摘要 A research paper introducing AutoHarness, a method to improve LLM agents by automatically synthesizing code harnesses. 📝 详细摘要 This tweet pro
📅 2026-03-17 06:59 (03-17 06:59) 马东锡 NLP 人工智能 1 分鐘 ★ 84
AutoHarness LLM Agents Code Synthesis Research Paper
Arxiv 链接:Anthropic 关于 AI 剥夺自主权的研究论文
📌 一句话摘要 一条跟进推文,提供了前述推文中讨论的研究论文的 Arxiv 直接链接。 📝 详细摘要 这是一条补充推文,包含 Anthropic 关于 AI 剥夺自主权和用户交互模式研究成果的正规论文链接(arxiv.org/abs/2601.19062)。 📊 文章信息 AI 评分:82 来
📅 2026-03-17 04:00 (03-17 04:00) Nav Toor 人工智能 2 分鐘 ★ 82
研究论文 Arxiv AI 安全 Anthropic