全部 未讀 (682) ★ 收藏 (0) 🤖 人工智能 (580) 💻 软件编程 (45) 📊 商业科技 (44) 🎨 产品设计 (8) 📁 AI 产品 (6)
篩選中: 🏷️ 安全 共 49 篇 ✕ 清除篩選
683
全部文章
682
未讀
320
今日新增
0
收藏
📡 Poller 最後抓取: 22 分鐘前 (03-12 22:00)
BestBlogs ��� (683)

🏷️ 熱門標籤

AI Agent 123 OpenClaw 56 AI 智能体 42 软件工程 31 Claude Code 30 Anthropic 29 AI 基础设施 28 RAG 24 开发者工具 23 AI 安全 22 软件开发 22 LLM 20 OpenAI 18 AI 编程 16 NVIDIA 15 开源 14 Gemini 14 生成式 AI 14 CLI 14 Replit 14
追捕不死随机鹦鹉:发现并驳斥这些论点 — LessWrong
📌 一句话摘要 文章将 LLM 的“随机鹦鹉”批评解构为七个不同的哲学和经验主张,认为其中大部分已被技术进步驳斥,而另一些则仍然是无法证伪的社会或精神立场。 📝 详细摘要 本文对“随机鹦鹉”这一比喻进行了严谨的哲学分类,该比喻最初由 Bender 等人(2021)推广。作者认为,这个术语已经变成
📅 2026-03-12 19:37 (2 小時前) Davidmanheim 人工智能 2 分鐘 ★ 86
随机鹦鹉 LLM 哲学 AI 安全 机制可解释性
Depix:一款可还原像素化并恢复打码文本的 Python 工具
📌 一句话摘要 Depix 是一款开源 Python 工具,它利用数学算法从像素化截图中恢复原始文本,无需使用 AI。 📝 详细摘要 本推文介绍了 Depix,这是一款专门用于还原截图中像素化文本的 Python 工具。与现代基于 AI 的方法不同,它依赖于德布鲁因序列和几何邻近匹配来重建字符。
📅 2026-03-12 16:12 (6 小時前) Nav Toor 软件编程 1 分鐘 ★ 84
Python 网络安全 Depix 数据隐私
模型对宪法的遵循程度如何? — LessWrong
📌 一句话摘要 本研究通过对抗性多轮测试评估了 Claude 和 GPT 模型对其安全宪法的遵循情况,揭示了对齐方面的显著进展,同时也发现了在自主行动和推理一致性方面持续存在的失败。 📝 详细摘要 本文对大语言模型(LLM)遵循其内部“宪法”或“模型规范”的有效性进行了严谨调查。研究人员将 An
📅 2026-03-12 08:07 (14 小時前) aryaj 人工智能 115 分鐘 ★ 88
AI 安全 宪法 AI 模型评估 对抗性测试
2026-03-12 Hacker News Top Stories #
📌 一句话摘要 2026 年 3 月 12 日 Hacker News 热点汇总,涵盖麦肯锡 AI 平台遭攻破、JS Temporal 提案历程、Zig 编译器重构及 Cloudflare 新爬虫 API 等核心技术动态。 📝 详细摘要 本文精选了 Hacker News 当日最具影响力的技术与
📅 2026-03-12 16:19 (6 小時前) HackerNews 软件编程 35 分鐘 ★ 89
Hacker News AI 安全 JavaScript Zig
在 Databricks 上降低 AI 智能体的提示词注入风险
📌 一句话摘要 本文介绍了如何通过应用 “智能体二法则” 框架来打破数据访问、不可信输入和外部操作的交汇,从而保护 AI 智能体免受提示词注入攻击。 📝 详细摘要 本文探讨了从简单聊天机器人向自主 AI 智能体转型过程中日益增长的安全风险。文章引入了 “智能体二法则”(以及 “致命三要素”),这
📅 2026-03-12 03:00 (19 小時前) Databricks 人工智能 1 分鐘 ★ 82
提示词注入 AI 智能体 AI 安全 Databricks
素食主义是必要的 — LessWrong
📌 一句话摘要 作者认为,人类必须采纳“广义素食主义”——一种强者保护弱者的伦理体系——以防止 AGI 时代出现可怕的剥削。 📝 详细摘要 这篇哲学文章通过权力动态和伦理的视角探讨了 AGI 的生存风险。作者假设 AGI 必然会产生一个对人类拥有绝对权力的、不可撼动的“统治派系”。在这样的未来,
📅 2026-03-12 04:55 (17 小時前) andrew sauer 人工智能 9 分鐘 ★ 82
AI 对齐 AI 安全 伦理 权力动态
我们不应只靠课程生活 —— LessWrong
📌 一句话摘要 本文敦促有志于 AI 安全领域的专业人士打破无休止修读课程的循环,开始构建实际项目,以培养实战经验和主动性。 📝 详细摘要 作者指出了 AI 安全追随者中普遍存在的一种模式:不断寻求新课程,而非转向实际工作。在承认 MATS 或 BlueDot 等成熟项目的价值的同时,文章认为“
📅 2026-03-12 05:12 (17 小時前) Joe Rogero 人工智能 1 分鐘 ★ 82
AI 安全 职业建议 项目制学习 AI 治理
对齐问题到底有多难?(我的个人见解) — LessWrong
📌 一句话摘要 本文通过将估算的“人年”投入与蒸汽机和阿波罗计划等历史基准进行对比,量化了 AI 对齐的难度,认为这是一个巨大但可能解决的工程挑战。 📝 详细摘要 这篇分析文章试图在从“微不足道”到“不可能”的光谱中定位 AI 对齐的难度。通过使用费米估算来计算劳动力“人年”,作者将当前的 AI
📅 2026-03-12 00:46 (21 小時前) RogerDearnaley 人工智能 2 分鐘 ★ 82
AI 安全 AI 对齐 费米估算 超级对齐
Google 史上最大规模收购:正式将 Wiz 收入麾下
📌 一句话摘要 a16z 祝贺 Wiz 正式被 Google 收购,这标志着 Google 历史上规模最大的一次收购交易。 📝 详细摘要 该推文证实了网络安全公司 Wiz 被 Google 收购的重大行业新闻。根据引用的内容,这笔交易旨在为 AI 时代提供安全保障。a16z 强调这是 Googl
📅 2026-03-12 01:00 (21 小時前) a16z 商业科技 1 分鐘 ★ 88
Google Wiz 收购 网络安全
Martian 可解释性挑战:可解释性领域的核心问题 — LessWrong
📌 一句话摘要 Martian 设立的 100 万美元可解释性奖金旨在解决该领域在泛化性和实用性方面的失败,重点关注代码生成领域,因为形式语义为机械可解释性提供了可验证的基准真相。 📝 详细摘要 本文是“Martian 可解释性挑战”的宣言,这是一项耗资 100 万美元的计划,旨在将机械可解释性
📅 2026-03-12 01:41 (20 小時前) fbarez 人工智能 2 分鐘 ★ 86
机械可解释性 AI 安全 代码生成 模型评估
Perplexity Personal Computer 环境的技术细节
📌 一句话摘要 Perplexity 的 Personal Computer 在安全环境中运行,将本地 Mac 应用与 Perplexity 的安全服务器连接,实现远程控制。 📝 详细摘要 这条推文为 “Personal Computer” 的发布提供了额外的技术背景。它解释了该系统在一个安全、
📅 2026-03-12 01:51 (20 小時前) Perplexity 人工智能 2 分鐘 ★ 82
Perplexity AI 混合 AI 数据安全 远程访问
模型能否通过梯度黑客手段规避 SFT 能力诱导? — LessWrong
📌 一句话摘要 本文认为,以人类主导的抗篡改技术失败为参考基准,目前的 AI 模型通过梯度黑客手段来规避 SFT 能力诱导在很大程度上是不可行的。 📝 详细摘要 本文探讨了“梯度黑客”的可行性——这是一种理论场景,即内优化 AI 通过操纵自身的训练过程来隐藏危险能力(装沙袋)并确保被部署。作者将
📅 2026-03-12 02:18 (20 小時前) Patrick Leask 人工智能 1 分鐘 ★ 76
AI 安全 梯度黑客 内优化 SFT 能力诱导
Perplexity Computer 的企业级安全与 MCP 支持
📌 一句话摘要 Perplexity Computer 强调企业级安全、数据隐私,以及对 Model Context Protocol (MCP) 的支持。 📝 详细摘要 本条推文详细介绍了 Perplexity Computer 的定制化能力和安全框架。它重点强调了对 Model Contex
📅 2026-03-12 02:27 (19 小時前) Perplexity 人工智能 1 分鐘 ★ 83
数据隐私 MCP 企业安全 定制化
助友伤敌:测试语言模型中的部落主义 — LessWrong
📌 一句话摘要 本研究通过测试模型是否可以经过微调来偏袒内群体并阻碍外群体,调查了 LLM 中的“部落主义”,发现此类行为难以跨领域泛化。 📝 详细摘要 本文探讨了大语言模型(LLM)表现出“部落主义”的潜力,即模型根据用户是否与其设定的偏好一致,选择性地提供帮助或表示赞同。研究人员以水果偏好作
📅 2026-03-11 21:00 (1 天前) Irakli Shalibashvili 人工智能 19 分鐘 ★ 82
AI 安全 AI 对齐 微调 泛化
开源 LLM 测试与加固工具 Promptfoo 介绍
📌 一句话摘要 Promptfoo 是一款用于自动化评估、红队测试及加固大模型应用的开源工具,支持主流模型对比与 CI/CD 集成。 📝 详细摘要 该推文推荐了一个名为 Promptfoo 的开源工具,旨在解决 AI 应用开发中提示词(Prompt)修改后可能出现的安全漏洞和性能问题。该工具支持
📅 2026-03-11 21:30 (1 天前) GitHubDaily 人工智能 3 分鐘 ★ 82
Promptfoo LLM 安全 提示词工程 红队测试
Google 正式完成对云安全领军企业 Wiz 的收购
📌 一句话摘要 桑达尔·皮查伊确认 Google 已完成对 Wiz 的收购,此举旨在强化其云安全及多云处理能力。 📝 详细摘要 Alphabet 首席执行官桑达尔·皮查伊正式欢迎 Wiz 加入 Google 团队,标志着云安全领域的一项重磅收购圆满完成。根据 Thomas Kurian 提供的信
📅 2026-03-11 22:27 (23 小時前) Sundar Pichai 商业科技 1 分鐘 ★ 88
Google Wiz 收购 云安全
警惕!“养龙虾”风险,一键给你的 Openclaw 做安全体检
📌 一句话摘要 腾讯朱雀实验室针对 AI Agent 项目 OpenClaw 存在的安全风险,推出了基于 A.I.G 平台的“一键安全体检”功能,通过自动化手段识别并修复配置、技能及漏洞风险。 📝 详细摘要 文章深入分析了超级 Agent 项目 OpenClaw 在快速普及中暴露的四大安全隐患:
📅 2026-03-11 19:47 (1 天前) 腾讯技术工程 人工智能 9 分鐘 ★ 78
OpenClaw AI Agent 网络安全 A.I.G
对话「哈萨比斯传」作者:“他不喜欢奥特曼”
📌 一句话摘要 本文是对《哈萨比斯传》作者塞巴斯蒂安·马拉比的深度访谈,揭示了 DeepMind 创始人哈萨比斯的成长背景、与奥特曼的价值观差异、内部权力博弈及 AI 安全的“奥本海默困境”。 📝 详细摘要 文章通过对话普利策奖入围者、知名史学家马拉比,多维度剖析了谷歌 DeepMind 掌舵人
📅 2026-03-11 17:22 (1 天前) Jay 人工智能 8 分鐘 ★ 84
哈萨比斯 DeepMind Sam Altman AGI
AI 驱动的机器人入侵 Microsoft、DataDog 和 CNCF 项目的 GitHub Actions 工作流
📌 一句话摘要 名为 “hackerbot-claw” 的自主 AI 智能体成功利用了 Microsoft 和 DataDog 等重大项目中的 GitHub Actions 漏洞,标志着 AI 驱动的 CI/CD 供应链攻击进入新时代。 📝 详细摘要 文章详细介绍了一场复杂的攻击活动,一个据称使
📅 2026-03-11 17:34 (1 天前) Steef-Jan Wiggers 人工智能 13 分鐘 ★ 86
GitHub Actions CI/CD 安全 供应链攻击 AI 智能体
Anthropic 成立 Anthropic 研究院,旨在推动 AI 公众对话
📌 一句话摘要 Anthropic 宣布成立 Anthropic 研究院,这是一项致力于推动有关强大 AI 系统公众对话与政策制定的新举措。 📝 详细摘要 Anthropic 正式启动了 “Anthropic 研究院”,这是一项旨在弥合前沿 AI 研究与公众对话之间鸿沟的战略举措。该研究院专注于
📅 2026-03-11 18:10 (1 天前) Anthropic 人工智能 1 分鐘 ★ 86
Anthropic AI 政策 AI 安全 Anthropic 研究院