全部 未讀 (11783) ★ 收藏 (0) 🤖 人工智能 (7568) 📊 商业科技 (1784) 💻 软件编程 (1196) 📁 个人成长 (735) 🎨 产品设计 (208) 📁 生活文化 (108) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 幻觉 共 21 篇 ✕ 清除篩選
11785
全部文章
11783
未讀
102
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 12:00)
BestBlogs 精選 (11766)

🏷️ 熱門標籤

AI Agent 1319 AI 智能体 732 Claude Code 643 Anthropic 621 LLM 563 OpenClaw 498 AI 编程 497 开源 438 AI 396 AI 安全 395 Claude 381 OpenAI 362 软件工程 354 开发者工具 341 生产力 308 GitHub 249 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
分析 LLM 幻觉率与航空安全
📌 一句话摘要 Gary Marcus 通过对比统计失败率,反驳了“LLM 产生幻觉就像飞机坠毁”的类比。 📝 详细摘要 Marcus 反驳了将 LLM 幻觉与飞机坠毁相提并论的常见类比。他提供了统计数据对比,指出当前 LLM 的幻觉率远高于商业航空公司的坠机率,旨在揭穿这两种故障模式在严重程度
📅 2026-04-07 10:21 (9 天前) Gary Marcus 人工智能 1 分鐘 ★ 82
LLM 幻觉 AI 安全 统计数据
对幻觉基准测试声明的批评
📌 一句话摘要 Gary Marcus 质疑了前沿模型幻觉问题已被“解决”的说法,并引用了 4.6% 的错误率作为反驳。 📝 详细摘要 Marcus 继续他的批评,认为基准测试中 4.6% 的幻觉率并不等同于问题已“解决”。他用会计师或飞行员等职业进行修辞性对比,强调了依赖非零错误率模型所带来的
📅 2026-04-07 06:21 (9 天前) Gary Marcus 人工智能 1 分鐘 ★ 76
LLM 幻觉 AI 基准测试 AI 可靠性
质疑关于 LLM 幻觉率的说法
📌 一句话摘要 Gary Marcus 反驳了前沿推理模型幻觉率“几乎为零”的断言,并指出了 4.6% 的错误率。 📝 详细摘要 针对前沿推理模型幻觉率可忽略不计的说法,Marcus 给出了显示 4.6% 错误率的数据。他认为这一比率对于关键应用而言是显著且危险的,挑战了围绕当前 LLM 可靠性
📅 2026-04-07 06:25 (9 天前) Gary Marcus 人工智能 1 分鐘 ★ 81
LLM 幻觉 AI 可靠性 推理模型
探讨 AI 幻觉的现状
📌 一句话摘要 加里·马库斯(Gary Marcus)发起讨论,向公众征集关于“前沿推理模型中的幻觉问题已得到解决”这一观点的证据。 📝 详细摘要 加里·马库斯向受众提出质疑,反驳了一位机器学习教授声称的“前沿推理模型中的幻觉问题已得到解决”的观点。他请求大家提供支持或反驳该说法的证据,旨在通过
📅 2026-04-07 04:39 (9 天前) Gary Marcus 人工智能 1 分鐘 ★ 78
AI 幻觉 LLM 推理模型 AI 可靠性
关于 Gemini 3 Pro 幻觉率的证据
📌 一句话摘要 马库斯分享了来自 The Decoder 的一篇文章,指出尽管 Gemini 3 Pro 的可靠性有所提高,但幻觉率依然很高。 📝 详细摘要 作为对之前提问的后续,马库斯分享了一篇分析 Gemini 3 Pro 的文章。内容表明,尽管在可靠性基准测试中有所改进,但幻觉率仍然是一个
📅 2026-04-07 04:47 (9 天前) Gary Marcus 人工智能 1 分鐘 ★ 81
Gemini 3 Pro AI 幻觉 模型评估 The Decoder
论文重构评估
📌 一句话摘要 一项评估 AI 撰写论文中呈现效果与幻觉问题的研究。 📝 详细摘要 该推文分享了一篇研究论文,旨在评估 AI 生成学术论文的质量,重点关注论文的呈现效果和幻觉问题。 📊 文章信息 AI 评分:80 来源:AK(@_akhaliq) 作者:AK 分类:人工智能 语言:英文 阅读时
📅 2026-04-07 00:04 (9 天前) AK 人工智能 1 分鐘 ★ 80
AI 评估 幻觉 LLM 研究
论文精读:“为什么语言模型会产生幻觉” — LessWrong
📌 一句话摘要 一篇关于 OpenAI 语言模型幻觉论文的详细第一人称“精读”文章,包含实证完整性检查以及对论文理论框架的批判性分析。 📝 详细摘要 作者以透明、循序渐进的方式,展示了自己在阅读 Kalai 等人撰写的论文《为什么语言模型会产生幻觉》(Why Language Models Ha
📅 2026-04-06 14:28 (9 天前) LawrenceC 人工智能 1 分鐘 ★ 87
LLM 幻觉 论文精读 计算学习理论
我创造了 Parseltongue — LessWrong
📌 一句话摘要 Parseltongue 是一个开源 DSL,旨在通过基于图灵序数系统的形式逻辑强制执行认知基础,从而减轻 LLM 的幻觉。 📝 详细摘要 作者介绍了“Parseltongue”,这是一种领域特定语言(DSL)和工具集,旨在让 LLM 无法表达谎言。通过实现一个形式化的认知格——
📅 2026-04-06 01:44 (10 天前) Valerii K. 人工智能 5 分鐘 ★ 88
AI 对齐 LLM 幻觉 形式逻辑 认知论
区分 AI 幻觉与故意撒谎
📌 一句话摘要 该研究阐明了幻觉(缺乏知识)与撒谎(隐瞒已知真相)之间的区别。 📝 详细摘要 这条推文阐明了 AI 幻觉与故意欺骗之间的关键区别。它将幻觉定义为知识空白,而 MASK 研究中观察到的行为涉及模型在压力下明明知道正确答案,却选择提供虚假信息,这被定性为“撒谎”而非故障。 📊 文章
📅 2026-04-05 04:01 (11 天前) Nav Toor 人工智能 2 分鐘 ★ 80
AI 行为 幻觉 AI 安全 MASK 基准测试
厘清人类认知错误与 LLM 幻觉之间的区别
📌 一句话摘要 加里·马库斯重发了一篇分析文章,阐述了为什么 LLM 幻觉与人类认知错误有着本质区别:前者源于统计重构,而非意图或生理状态。 📝 详细摘要 这条推文旨在提醒 AI 理论中的一个基础概念。加里·马库斯指出,将人类认知错误与 LLM 幻觉混为一谈是错误的。他解释道,人类错误源于复杂的
📅 2026-04-05 01:34 (11 天前) Gary Marcus 人工智能 1 分鐘 ★ 81
LLM 幻觉 AI 理论 AGI
Sonatype 推出 Guide,强化 AI 辅助代码生成的安全性
📌 一句话摘要 Sonatype Guide 是一款利用 MCP 协议连接 AI 编程工具与开源生态的实时防护系统,旨在解决 AI 生成代码中的依赖项安全、合规及幻觉问题。 📝 详细摘要 本文介绍了 Sonatype 推出的新工具 Guide,这是一个部署在 AI 编程助手(如 Copilot、
📅 2026-03-30 15:56 (16 天前) InfoQ 中文 人工智能 1 分鐘 ★ 86
Sonatype MCP AI 编程 软件供应链安全
幻觉
📌 一句话摘要 本文通过杨振宁家史的 AI 幻觉案例,探讨了大模型幻觉的不可避免性,提出交叉验证的应对策略,并延伸感悟了时代洪流下的家族悲剧。 📝 详细摘要 文章从用户反馈的 AI 幻觉问题出发,明确指出幻觉是大模型的固有特性,无法从技术上完全消除,只能通过方法论克服。作者分享了使用 Gemin
📅 2026-03-28 22:25 (18 天前) 猫笔刀 人工智能 1 分鐘 ★ 82
AI 幻觉 大语言模型 交叉验证 杨振宁
超越提示词工程:检测与缓解 LLM 幻觉的 5 种实用技术 - MachineLearningMastery.com
📌 一句话摘要 本文概述了五种系统级策略——RAG、输出验证、约束生成、置信度评分和人在回路工作流——以在生产环境中有效检测和缓解 LLM 幻觉。 📝 详细摘要 本文为开发者提供了一份实用指南,旨在通过从基于提示词的解决方案转向稳健的系统级架构来解决 LLM 幻觉问题。文章解释了幻觉的根本原因(
📅 2026-03-25 21:39 (21 天前) Shittu Olumide 人工智能 16 分鐘 ★ 83
LLM 幻觉 RAG 系统设计
识别 Claude 中的 AI 幻觉
📌 一句话摘要 Jeremy Howard 指出 Claude 在回复中关于参数命名的内容存在幻觉。 📝 详细摘要 Jeremy Howard 识别出 Claude 回复中的一个幻觉,模型错误地引用了参数名称(将 budget_tokens 误称为 budgetTokens),这提醒我们在使用
📅 2026-03-24 13:39 (23 天前) Jeremy Howard 人工智能 1 分鐘 ★ 86
Claude AI 幻觉 调试 API
错用 AI 的人,实在太多了!
📌 一句话摘要 武汉大学苏德超教授通过哲学视角拆解 AI 时代的决策逻辑,强调通过寻找中间变量、识别 AI 幻觉成因及建立“4 步核查法”来规避决策风险。 📝 详细摘要 本文源自苏德超教授在笔记侠 PPE 书院的讲座,深度探讨了 AI 辅助决策的底层逻辑与潜在陷阱。文章指出,科学决策的核心在于寻
📅 2026-03-21 22:22 (25 天前) 笔记侠 人工智能 12 分鐘 ★ 82
AI 幻觉 决策科学 哲学思维 风险管理
减少生产环境 LLM 幻觉的 7 种方法
📌 一句话摘要 本文将 LLM 幻觉视为系统设计挑战而非单纯的模型问题,并提供了 7 种架构策略来增强生产环境中的可靠性。 📝 详细摘要 本文概述了一个在生产环境 LLM 应用中减轻幻觉的综合框架。它将重点从简单的提示工程(Prompt Engineering)转向稳健的架构设计,提倡采用检索增
📅 2026-03-18 20:00 (28 天前) Kanwal Mehreen 人工智能 5 分鐘 ★ 83
LLM 幻觉 RAG MLOps
“BS Bench”发布:测试 AI 在面对荒谬问题时的幻觉表现
📌 一句话摘要 一项名为“BS Bench”的新基准测试对 80 个 AI 模型进行了评估,旨在看它们是能识别荒谬问题,还是会自信地编造虚假答案。 📝 详细摘要 这条推文介绍了由 Peter Gostev 创建的“BS Bench”基准测试,该测试衡量了 80 种不同的 AI 模型如何处理荒谬或
📅 2026-03-17 09:00 (03-17 09:00) Arena.ai 人工智能 2 分鐘 ★ 84
BS Bench AI 基准测试 幻觉 LLM 评估
DoorDash 构建 LLM 对话模拟器,规模化测试客户支持聊天机器人
📌 一句话摘要 DoorDash 开发了一个基于 LLM 的自动化模拟与评估“飞轮”,用于严格测试非确定性客户支持聊天机器人,实现了幻觉率降低 90%。 📝 详细摘要 DoorDash 实施了一个精密的离线实验框架,以解决测试非确定性 LLM 驱动的聊天机器人固有的难度。该系统具有一个“模拟与评
📅 2026-03-13 22:12 (03-13 22:12) Leela Kumili 人工智能 2 分鐘 ★ 83
LLM 运维 聊天机器人测试 AI 模拟 幻觉缓解
程序员之后的编程:我们所知的计算机编程的终结
📌 一句话摘要 Simon Willison 反思了《纽约时报》一篇探讨 AI 如何重塑编程的重要专题报道,强调了开发者通过自动化测试验证 AI 输出的独特能力。 📝 详细摘要 本文是对 Clive Thompson 在《纽约时报杂志》上发表的一篇长篇报道的评论,该报道采访了来自 Google
📅 2026-03-13 03:23 (03-13 03:23) Simon Willison 人工智能 1 分鐘 ★ 76
AI 编程 软件工程 LLM 幻觉 行业趋势
大模型幻觉问题,产品经理该怎么兜底?
📌 一句话摘要 本文针对大模型不可避免的幻觉问题,提出了从预期管理、交互重塑、信息溯源到客诉闭环的四套产品设计方案,旨在通过产品机制而非算法优化来构建人机信任并守住业务底线。 📝 详细摘要 文章深入探讨了 AI 产品经理在面对大模型“幻觉”时的应对策略。作者认为,在当前技术框架下,幻觉是大模型概
📅 2026-03-12 07:46 (03-12 07:46) 人人都是产品经理 人工智能 7 分鐘 ★ 84
大模型幻觉 AI 产品经理 人机交互 RAG