全部 未讀 (21689) ★ 收藏 (0) 🤖 人工智能 (11201) 📊 商业科技 (4470) 💻 软件编程 (1688) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (838) 📁 投资财经 (537) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 可靠性 共 40 篇 ✕ 清除篩選
21691
全部文章
21689
未讀
53
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-09 02:00)
BestBlogs 精選 (21656)

🏷️ 熱門標籤

AI Agent 2173 AI 编程 994 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 433 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
一篇 Harness 研究后的思考!
📌 一句话摘要 本文基于 CMU/Yale 的 Agent Harness 综述,提出 Agent 可靠性的核心瓶颈已从模型能力转向运行时状态管理,并定义了 State-Aware Runtime 作为下一代研究方向。 📝 详细摘要 文章从 CMU/Yale 发布的 Agent Harness
📅 2026-05-30 22:07 (9 天前) Datawhale 人工智能 2 分鐘 ★ 87
Agent State-Aware Runtime Harness Engineering 可靠性
AI 助手们,骗了人不能只说「对不起」
📌 一句话摘要 本文深入剖析了 AI 助手频繁犯错后快速道歉的现象,指出这并非单纯的模型幻觉,而是工程层面成本-准确性权衡(Cost-Accuracy Trade-off)下的系统性策略,并警示这种策略对社会信息生态的潜在风险。 📝 详细摘要 文章以生动的案例(如豆包、DeepSeek 在查询大
📅 2026-05-29 21:30 (10 天前) 36氪 人工智能 2 分鐘 ★ 86
AI助手 模型幻觉 成本-准确性权衡 AI产品
#552. AI 进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
📌 一句话摘要 OpenAI 内部研究者 Yann Dubois 详解 GPT 5.5 背后的可靠性跃迁、强化学习从竞赛走向真实世界的转变,以及 Posttraining 如何将知识转化为可用能力。 📝 详细摘要 本期节目通过 AI 声纹克隆技术,将 The MAD Podcast 与 Open
📅 2026-05-25 11:29 (14 天前) 跨国串门儿计划 人工智能 2 分鐘 ★ 82
GPT 5.5 强化学习 Posttraining 模型可靠性
科技爱好者周刊(第 397 期):财富正在向 AI 集中
📌 一句话摘要 本期周刊以「财富正在向 AI 集中」为核心议题,探讨 AI 技术革命引发的社会财富再分配效应,并涵盖 AI 估算碳水含量的实验、微软淘汰短信验证码、亚马逊供应链服务等多个科技话题。 📝 详细摘要 本期周刊围绕 AI 技术革命引发的财富再分配效应展开。作者指出,从内存、芯片到铜铝等
📅 2026-05-22 07:58 (17 天前) 阮一峰的网络日志 媒体资讯 2 分鐘 ★ 88
AI 财富集中 科技周刊 AI 可靠性 Passkey
首篇 Agent Harness 综述:模型之外,Agent 拼什么?
📌 一句话摘要 本文综述了 CMU、Yale、Amazon 等机构提出的 Agent Harness Engineering 概念,将执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和治理安全整合为 ETCLOVG 七层架构,论证了模型之外的系统工程对 Agent 可靠性的决定性影
📅 2026-05-19 15:10 (20 天前) PaperWeekly 人工智能 2 分鐘 ★ 88
Agent Harness ETCLOVG AI Agent 系统工程
#543. 为何 2026 是 Harness 之年?IBM 专家深度拆解
📌 一句话摘要 IBM AI 开发者倡导者 Tejas Kumar 通过现场编码演示,深入拆解了 Agent Harness 的概念、原理与构建方法,并预测 2026 年将成为 AI Harness 之年。 📝 详细摘要 本期播客通过 AI 声纹克隆技术,将 IBM AI 开发者倡导者 Teja
📅 2026-05-19 20:12 (20 天前) 跨国串门儿计划 人工智能 2 分鐘 ★ 85
AI Agent Harness AI 可靠性 Agent 护栏
湖南台 AI 主播骂上热搜,AI 海量“错误”却没人管
📌 一句话摘要 本文以湖南台 AI 主播争议为引,深入剖析 Google AI Overview 功能存在的系统性错误问题,指出其每小时产生超 5700 万条错误信息,且错误形式多样、来源不可靠、难以验证,将搜索引擎从信息策展人转变为不可靠的答案机器。 📝 详细摘要 文章从湖南经视启用 AI 主
📅 2026-05-04 21:37 (05-04 21:37) 虎嗅APP 人工智能 2 分鐘 ★ 85
AI 搜索 Google AI Overview AI 幻觉 信息可靠性
假期出游,我被 AI 坑惨了
📌 一句话摘要 本文通过六个真实案例,揭示了当前 AI 在旅行攻略中存在的实时信息缺失、本地细节错误、过度自信等核心问题,提醒用户 AI 只能做框架参考,不能完全依赖。 📝 详细摘要 本文采访了六位在五一假期使用 AI 做旅行攻略却遭遇各种问题的用户,通过他们的亲身经历,系统性地揭示了当前 AI
📅 2026-05-03 11:11 (05-03 11:11) 虎嗅APP 人工智能 2 分鐘 ★ 83
AI旅行攻略 AI局限性 大模型应用 用户体验
Mitchell Hashimoto 宣布 Ghostty 将从 GitHub 迁出
📌 一句话摘要 HashiCorp 联合创始人 Mitchell Hashimoto 宣布,因 GitHub 频繁宕机影响开发工作,其开源终端模拟器 Ghostty 将逐步迁移出 GitHub。 📝 详细摘要 Mitchell Hashimoto(Vagrant 和 Terraform 创造者、
📅 2026-04-29 04:09 (04-29 04:09) 宝玉 软件编程 1 分鐘 ★ 85
GitHub Ghostty Mitchell Hashimoto 开源迁移
可靠性胜过情绪:成功的关键
📌 一句话摘要 Sahil Bloom 认为,自律和可靠性——无论情绪如何都坚持到场——是通往成功生活的根本关键。 📝 详细摘要 这条推文提供了关于“可靠性”核心概念的励志建议。它指出,一个人应该忽略自己的情绪状态或“心情”,转而专注于履行承诺。其核心信息是:成功属于那些能够持续到场并言出必行的
📅 2026-04-10 20:10 (04-10 20:10) Sahil Bloom 个人成长 1 分鐘 ★ 82
自律 可靠性 心态 生产力
Perplexity CEO 称其 AI 在税务申报方面优于专业会计师
📌 一句话摘要 Aravind Srinivas 分享了一个用户案例,其中 Perplexity AI 通过发现 1.4 万美元的税务错误,表现优于专业注册会计师(CPA)。 📝 详细摘要 Perplexity 首席执行官 Aravind Srinivas 引用了一位用户的评价,称 Perple
📅 2026-04-10 09:02 (04-10 09:02) Aravind Srinivas 人工智能 1 分鐘 ★ 86
Perplexity 金融 AI 税务申报 Aravind Srinivas
构建可靠 GPU 基础设施指南
📌 一句话摘要 Google Cloud 概述了其构建可靠 GPU 基础设施的战略框架,重点关注系统韧性、主动预防以及 MTBI 和 Goodput 等关键指标,以支持万亿参数模型的训练。 📝 详细摘要 随着 AI 模型扩展至万亿参数规模,GPU 基础设施已成为关键任务资产,即使是微小的硬件差异
📅 2026-04-10 08:00 (04-10 08:00) Abhijith Prabhudev, Abhay Ketkar 软件编程 1 分鐘 ★ 87
GPU 基础设施 AI/ML 可靠性 Google Cloud MTBI
GitHub 可用性报告:2026 年 3 月
📌 一句话摘要 GitHub 2026 年 3 月可用性报告详细介绍了影响 Actions、Copilot 和 API 服务的四起重大事故,原因涉及缓存错误、Redis 配置错误及凭据问题。 📝 详细摘要 本报告透明地分析了 2026 年 3 月发生的四起服务中断事件。主要事故包括 3 月 3
📅 2026-04-09 10:21 (04-09 10:21) Jakub Oleksy 软件编程 1 分鐘 ★ 84
GitHub 可用性报告 事后分析 站点可靠性工程
信任但要灰度:大规模配置安全性
📌 一句话摘要 本期来自 Meta 工程团队的播客探讨了在大规模环境下确保配置安全发布的策略与自动化系统,包括灰度发布、渐进式发布以及 AI 驱动的故障响应。 📝 详细摘要 在本期 Meta 技术播客中,Meta 的工程师们讨论了管理大规模配置发布背后的关键基础设施。对话涵盖了如何通过实施灰度部
📅 2026-04-09 02:25 (04-09 02:25) Engineering at Meta 软件编程 1 分鐘 ★ 80
配置管理 灰度部署 站点可靠性工程 SRE
应对 AI 能力与可靠性的虚假二分法
📌 一句话摘要 Marcus 驳斥了“AI 不可能既不可靠又危险”的观点,认为这是一种虚假二分法。 📝 详细摘要 针对一位用户质疑 LLM 怎么可能既“不好用”又“能力太强/太危险”,Marcus 指出这是一种虚假二分法。他认为,一个系统可以在推理方面不可靠,但同时仍具备足够的能量(例如在网络攻
📅 2026-04-08 23:43 (04-08 23:43) Gary Marcus 人工智能 3 分鐘 ★ 74
AI 安全 虚假二分法 AI 可靠性
Arena 创始人将在 HumanX 大会讨论 AI 可靠性
📌 一句话摘要 lmarena.ai 的创始人将在 HumanX 大会上就众包基准测试和 AI 可靠性竞赛发表讲话。 📝 详细摘要 lmarena.ai (LMSYS) 的首席执行官和主席计划出席 HumanX 大会。他们将参加由《金融时报》(Financial Times) 主持的环节,讨论有
📅 2026-04-09 00:04 (04-09 00:04) Arena.ai 人工智能 1 分鐘 ★ 74
HumanX AI 可靠性 LMSYS 基准测试
我的无监督诱导挑战 — LessWrong
📌 一句话摘要 作者提出了一个现实世界的挑战:在没有人工监督或语言先验知识的情况下,让 Claude Opus 4.6 正确完成一项基础古希腊语练习。 📝 详细摘要 本文探讨了 LLM 在用户缺乏专业知识以验证输出结果时的局限性。作者分享了使用 Claude Opus 4.6 辅助古希腊语学习的
📅 2026-04-08 09:30 (04-08 09:30) DanielFilan 人工智能 1 分鐘 ★ 86
LLM 提示工程 Claude 无监督学习
对幻觉基准测试声明的批评
📌 一句话摘要 Gary Marcus 质疑了前沿模型幻觉问题已被“解决”的说法,并引用了 4.6% 的错误率作为反驳。 📝 详细摘要 Marcus 继续他的批评,认为基准测试中 4.6% 的幻觉率并不等同于问题已“解决”。他用会计师或飞行员等职业进行修辞性对比,强调了依赖非零错误率模型所带来的
📅 2026-04-07 06:21 (04-07 06:21) Gary Marcus 人工智能 1 分鐘 ★ 76
LLM 幻觉 AI 基准测试 AI 可靠性
质疑关于 LLM 幻觉率的说法
📌 一句话摘要 Gary Marcus 反驳了前沿推理模型幻觉率“几乎为零”的断言,并指出了 4.6% 的错误率。 📝 详细摘要 针对前沿推理模型幻觉率可忽略不计的说法,Marcus 给出了显示 4.6% 错误率的数据。他认为这一比率对于关键应用而言是显著且危险的,挑战了围绕当前 LLM 可靠性
📅 2026-04-07 06:25 (04-07 06:25) Gary Marcus 人工智能 1 分鐘 ★ 81
LLM 幻觉 AI 可靠性 推理模型
探讨 AI 幻觉的现状
📌 一句话摘要 加里·马库斯(Gary Marcus)发起讨论,向公众征集关于“前沿推理模型中的幻觉问题已得到解决”这一观点的证据。 📝 详细摘要 加里·马库斯向受众提出质疑,反驳了一位机器学习教授声称的“前沿推理模型中的幻觉问题已得到解决”的观点。他请求大家提供支持或反驳该说法的证据,旨在通过
📅 2026-04-07 04:39 (04-07 04:39) Gary Marcus 人工智能 1 分鐘 ★ 78
AI 幻觉 LLM 推理模型 AI 可靠性