相关不是因果,哪又是啥?
目录
- 相关不是因果,哪又是啥?
- 导论
- 一个典型的数据科学课题
- 常规分析方法
- 方法一:画出双变量关系
- 方法二:对所有可用特征使用 ML 模型
- 也许我们应该考虑下特征之间的关联...
- 所以现在做什么?因果推断!
- Backdoor Criteria 算法
- 如何得到模型的 DAG?
- 进阶阅读
近期广泛阅读券商关于宏观高频数据的研报,发现了两点不足:
- 就研究手段而言,比较粗放,普遍停留在仅仅比较数据相关系数的层面;
- 就理论高度而言,很少探讨数据背后的因果关联。
不过有些理念先进的券商团队已经开始从产业链传导的角度试图细致的描述数据间的关联,这正好契合了下面这篇文章的核心概念——有向无环图(DAG)。
相关不是因果,哪又是啥?
本文翻译自《"Correlation is not causation". So what is?》
链接:https://iyarlin.github.io/2019/02/08/correlation-is-not-causation-so-what-is/
导论
在过去几年中,机器学习应用的数量和范围都在迅速增长。什么是因果推断,它与传统的 ML 有什么不同?什么时候应该考虑使用它?在本报告中,我尝试通过一个例子给出一个简短而具体的答案。
一个典型的数据科学课题
想象一下,营销团队的任务是找到提高营销支出对销售的影响。我们拥有营销支出(mkt)、网站访问(visits)、销售(sales)和竞争指数(comp)的记录。
我们将使用一组方程(也称为结构方程)来模拟数据集:
\[ sales = \beta_1vists + \beta_2comp + \epsilon_1 \\ vists = \beta_3mkt + \epsilon_2\\ mkt = \beta_4comp + \epsilon_3\\ comp = \epsilon_4 \]
其中 \(\{\beta_1, \beta_2, \beta_3\, \beta_4\} = \{0.3, -0.9, 0.5, 0.6\}\).
下面图片中展示以及拟合模型用到的所有数据均由上面的等式模拟得到。
以下是数据集的前几行:
mkt | visits | sales | comp |
---|---|---|---|
282.5 | 2977 | 379 | 3.635 |
338.8 | 3149 | 308 | 4.515 |
303.9 | 2485 | 369 | 3.092 |
558.8 | 3117 | 191 | 5.22 |
334.4 | 4038 | 286 | 4.281 |
297.7 | 2854 | 441 | 3.592 |
我们的目标是,得到预测营销支出对销售额的影响是 0.15 的结论(根据上面的方程组,对分项目做乘积,我们得到 \(\beta_1 \cdot \beta_3 = 0.3 \cdot 0.5 = 0.15\))。
常规分析方法
方法一:画出双变量关系
我们通常从画出 sales 和 mkt 之间的散点图开始:
我们可以看到图中看到的关系实际上与我们预期的相反!看起来增加营销实际上会降低销售额。实际上,不仅相关性不是因果关系,有时它可能表现出与真实因果关系相反的关系。
拟合一个简单的线性模型 \(sales = r_0 + r_1mkt + \epsilon\) 将会产生下面的系数:(注意,\(r\) 泛指回归系数,而 \(\beta\) 泛指结构方程中真实的参数)
(Intercept) | mkt |
---|---|
513.5 | -0.3976 |
确认我们得到的效果与我们想要的效果截然不同(0.15)。
方法二:对所有可用特征使用 ML 模型
有人可能会假设,查看双变量关系相当于仅使用 1 个预测变量,但如果我们要使用所有可用的特征,我们可能能够找到更准确的估计。
运行回归模型 \(sales = r_0 + r_1mkt + r_2visits + r_3comp + \epsilon\),得到下面的系数:
(Intercept) | mkt | visits | comp |
---|---|---|---|
596.7 | 0.009642 | 0.02849 | -90.06 |
现在看来营销支出几乎没有任何影响!我们从线性方程模拟数据,并且我们知道即使使用更复杂的模型(例如 XGBoost、GAM)也无法产生更好的结果(我建议有疑虑的读者通过重新运行 Rmd 脚本来尝试一下生成报告)。
也许我们应该考虑下特征之间的关联...
到目前为止我们获得的结果相当令人困惑,我们进而咨询营销团队,我们了解到,在竞争激烈的市场中,团队通常会增加营销支出(这反映在系数 \(\beta_4 = 0.6\) 以上)。因此,竞争可能是一个“混杂”因子:当我们观察到高营销支出时,竞争也会很激烈,从而导致销售额下降。
此外,我们注意到营销可能会影响网站的访问,而这些访问又会影响销售。
我们可以使用有向无环图(DAG)可视化这些特征的相互依赖性:
因此,通过将混杂竞争加到我们的回归是有意义的。而在我们的模型中添加访问可能会“屏蔽”或“消解”营销对销售的影响,所以我们应该从我们的模型中省略它。
运行回归模型 \(sales = r_0 + r_1mkt + r_2comp + \epsilon\),得到下面的系数:
(Intercept) | mkt | comp |
---|---|---|
654.8 | 0.1494 | -89.8 |
现在我们终于得到了正确的效果估计!
我们解决问题的方式有点不稳健。我们提出了诸如特征的“混杂”和“屏蔽”等一般概念。试图将这些应用于由数十个具有复杂关系的变量组成的数据集可能会非常困难。
所以现在做什么?因果推断!
到目前为止,我们已经看到,试图通过检查双变量图来估计营销支出对销售的影响可能会失败。我们还看到,将所有可用特征抛入我们的标准 ML 模型也会失败。看起来我们需要仔细构建模型中包含的协变量集,以获得真实的效果。
在因果推断中,该协变量集合也称为“调整集”。给定模型的 DAG,我们可以利用各种算法,这些算法非常类似于上面提到的规则,例如“混杂”和“屏蔽”,以找到正确的调整集。
Backdoor Criteria 算法
可以获得正确调整集的最基本算法之一是由 J. Pearl 开发的“Backdoor-criteria”。简而言之,它寻求调整集,屏蔽“暴露”变量(例如营销)和“结果”变量(例如销售)之间的每一个“虚假”路径,同时保持影响路径存在。
考虑下面的 DAG,我们试图找到 x5
对 x10
的影响:
使用 backdoor-criterion 算法(由 R 包 dagitty
实现),我们找到正确的调整集:
如何得到模型的 DAG?
诚然,找到模型的 DAG 非常有挑战性。可以综合考虑下列几种方法:
- 借助领域知识;
- 想给出一些候选 DAG,再用统计检验比较拟合水平;
- 使用搜索方法(借助一些 R 包,例如
mgm
或bnlearn
)
我会在后面的文章中展开这些主题。
进阶阅读
想要进一步了解上述问题的朋友,我推荐阅读 Pearl 写的一篇轻量级的技术报告——《The Seven Tools of Causal Inference with Reflections on Machine Learning》。
想要深入了解因果推断与 DAG 机制的话,我推荐 Pearl 的小册子——《Causal Inference in Statistics - A Primer》。
转载于:https://www.cnblogs.com/xuruilong100/p/10434564.html
相关不是因果,哪又是啥?相关推荐
- 如果相关不意味着因果,那么什么意味着? ——大数据时代的“因果关系”思辨
[导语]:相关性和因果性之间的联系,从统计学教材到大数据著作,都有着广泛的探讨,甚至争议不断.迈尔舍恩伯格在<大数据时代>里说,"要相关,不要因果",在大数据时代,有相 ...
- 格兰因果模型可以分析哪些东西_相关不等于因果,深度学习让AI问出“十万个为什么”...
大数据文摘出品 来源:searchenterpriseai 编译:张大笔茹 生活经验告诉我们,相关关系并不能直接推导出因果关系,但不管是日常生活还是学术研究,对于因果关系的解释要远比相关关系重要得多. ...
- 什么是因果?什么是相关?
[这是数学界的一个前沿热点难点问题,也是人工智能.哲学.宗教绕不开的关口]因果关系:就是有某些起因就会有某些结果发生.因果关系的起因有好的有不好的产生的结果也不一样.有好的起因也有不好的结果. 相关关 ...
- 《因果科学周刊》第2期:如何解决混淆偏差?
为了帮助大家更好地了解因果科学的最新科研进展和资讯,我们因果科学社区团队本周整理了第2期<因果科学周刊>,从 Causality, Causal Inference, Causal AI ...
- 深度学习后,图灵奖得主Bengio研究核心是什么?因果表示学习
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:机器之心 在近日发表的一篇论文中,图灵奖得主 Yoshua Bengio 等详细介绍了 ...
- 经由因果分析,反驳AI监控学生上课,及辨别健康类谣言
来源:混沌巡洋舰 想象这样一个场景,你和你心爱的女孩一起自习,你的理科好,于是你看着她听数学的网课时,有时露出困惑的表情,还有时会走神.然后等她听完,你再把你觉得她没有听懂的部分,给她换一种方式讲出来 ...
- 去伪存真:因果约束下的图神经网络泛化
写在篇首 图神经网络(GNN)是在各种图数据应用上强有力的深度学习算法.其基本学习范式可以归纳为:在训练节点或图上训练图神经网络参数,然后利用训练好的图神经网络预测节点或者图的标签.保证这种学习范式有 ...
- 大数据、云计算、物联网相关技术概述——《大数据技术原理与应用》课程学习总结
在学习大数.云计算以及物联网相关概念之前,先了解一下大数据的背景吧 1.1 大数据时代 1.1.1 第三次信息化浪潮 三次信息化浪潮: 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次信息化浪潮 ...
- 相关关系与因果关系之探讨——大数据时代读后感(1)
维克托.迈尔.舍恩伯格的<大数据时代>一书如雷贯耳,决心要拜读一番.本打算读英文原版,考虑到时间有限,中文版的也许看得快一些,所以还是读中文版的吧.简单读了几页之后,发现无论译者周涛的文笔 ...
最新文章
- jMonkey Engine SDK3 中文乱码问题
- HDOJ--4821--String【弦hash】
- xpath如何得到【爬虫】
- mysql实现vpd_基于JDBC实现VPD:SQL解析篇
- Jquery Mobile设计Android通讯录第二章
- python常用快捷键、写代码事半功倍_Pycharm常用快捷键总结及配置方法
- 服务型存储市场的现状
- FPGA RAM存储器设计
- 【第5篇】Python爬虫实战-读取临时邮箱内容
- 【Oracle】-【LRU和DBWR】-LRU算法与DBWR中的应用
- 17.凤凰架构:构建可靠的大型分布式系统 --- 技术演示工程实践
- 如何进行大数据的入门级学习?
- 银河麒麟桌面操作系统 V10 SP1 安装教程
- 元宇宙的第一步,应该在汽车里迈出去?
- html中图片以图片中心放大旋转,图片旋转放大居中
- AAAI2020论文列表(中英对照)
- 远程服务器用户多开,服务器安全之修改远程桌面限制同一用户使用同一个会话。一个用户只开一个会话禁止多开。...
- 动态规划---01背包问题详解
- 英语四六级考试忘记准考证?怎么办?
- HTTP引流工具Gor快速入门