因果推断正在“吞噬”机器学习

📌 一句话摘要

本文探讨了为何基于相关性的传统机器学习在决策中会失效，以及 DoWhy 等现代因果推断工具如何成为有效部署 AI 的关键。

📝 详细摘要

本文指出了现代 AI 的一个关键缺陷：预测与行动之间的鸿沟。虽然传统的机器学习擅长寻找相关性（关联），但由于无法解释混杂变量，它在用于指导干预措施时往往会失效。作者通过辛普森悖论（Simpson's Paradox）和激素替代疗法（HRT）研究等历史案例，展示了高准确率模型如何导致适得其反的现实结果。文章引入了朱迪亚·珀尔（Judea Pearl）的“因果阶梯”（Ladder of Causation）作为理解这些局限性的框架，并强调了“PyWhy”生态系统（DoWhy 和 EconML）的成熟。文中还提供了一个实用的 5 问题诊断法，帮助从业者判断其问题是否需要因果推断方法，并提出了一个结构化的四步工作流——建模（Model）、识别（Identify）、估计（Estimate）和反驳（Refute）——以确保决策的稳健性。

💡 主要观点

- 预测与干预之间的根本鸿沟导致了模型失效。 标准的机器学习模型基于关联（珀尔因果阶梯的第一层）运行。当这些模型被用于制定决策（第二层）时，它们往往会失效，因为干预行为改变了模型最初学习到的底层数据关系。

混杂变量是高准确率模型主要的“隐形杀手”。 一个模型可以通过捕捉由隐藏的共同原因（混杂因素）驱动的相关性达到 94% 的准确率。然而，如果这些相关性并非因果关系，那么基于它们采取行动将无法产生预期的结果，正如在医疗再入院和 HRT 病例中所看到的那样。

现代工具使生产环境中的因果分析变得平民化。 DoWhy 和 EconML 等库已经实现了因果推断中复杂的“识别”步骤的自动化。这使得开发人员能够专注于通过有向无环图（DAGs）来编码领域知识，而不是手动推导复杂的统计估计量。

“反驳”步骤是区别于标准机器学习验证的最关键因素。 与使用测试集的标准验证不同，因果推断需要尝试使用安慰剂处理或随机混杂因素来打破模型的结论。如果某种效应能够经受住这些“攻击”，那么它对于商业策略来说就更加可靠。

💬 文章金句

- 预测再入院的变量与导致再入院的变量并非同一组。

用旨在回答“将会发生什么？”的工具来回答“我们应该做什么？”，就像用温度计来设置恒温器一样。
一个模型可以拥有高准确率，通过所有验证检查，但给出的建议仍然会让结果变得更糟。
如果你的模型建议会改变它所学习的那些关系，那么你就已经离开了预测的领域。欢迎来到因果的世界。

📊 文章信息

AI 评分：89

来源：Towards Data Science

作者：Kaushik Rajan

分类：人工智能

语言：英文

阅读时间：12 分钟

字数：2805

标签：因果推断, 机器学习, DoWhy, Judea Pearl, 数据科学

阅读完整文章

因果推断正在“吞噬”机器学习

🤖 問 AI