【机器学习】机器学习视角下的因果推断
机器学习可以通过样本直接匹配以及提升倾向性得分(PSM)准确度来实现样本的精准匹配,使得样本对反事实预测的研究更具有随机化实验的特性。本文从匹配法、断点回归法、双重差分法、合成控制法四个方面讲解机器学习视角下的因果推断。
1 因果推断分析框架
1.1 结构因果模型与潜在结果模型
1.1.1 结构因果模型
结构因果模型(structural casual model, SCM)的因果关系有以下一系列非线性和非参数所组成的结构方程组来刻画:
()
其中,是我们关注的对象变量,是直接影响对象变量的父类变量,是无法观测的扰动因素。
纯理论建模在一系列前提假设的情况下由式(1)所构建的方程组进行均衡求解,为此会将式(1)进一步展开为以下线性形式的简约方程关系来进行从参数估计和参数检验:
()
其中所对应的变量,即对应式(1)中的父类变量。
1.1.2 潜在结果模型
潜在结果模型(potential outcom,PO)框架的因果效应被看作是实验中样本的实际结果与受到随机处理后所产生的潜在结果之间的差异,即在一个N个样本的随机试验中,若有n0个未被处理的样本和n1倍随机处理的样本,则饰演的无偏平均因果效应(average treatment effect,ATE)被定义为:()
其中和是观测样本的潜在结果,上标表示是否收到处理,我们只能观测到两者中的一个,因此此时的ATE的无偏估计量为:
()
这个模型框架后续被Rubin(1974,2005)拓展到非随机领域,形成了著名的“Neyman-Rubin”模型。假设用哑变量D表示是否收到政策干预,D = 1表示收到政策干预,其样本集合被称为处理组,D = 0表示没有收到政策干预(也就是我们之前文章谈到的LATE模型),其样本集合被称为控制组。实验组和控制组的潜在观测结果分为和,则实际观测结果可表示为:,此时ATE的估计量为:()其中为条件期望算子。如果我们更加关注参与者的平均因果效应(average treatment effect on the treated,ATT)或者非参与者平均因果效应(average treatment effect on the untreated,ATU),则可以通过下面两个公式分别得到ATT和ATU的估计量:
()()
1.2 机器学习与因果推断框架
PO因果推断在实践应用中会进行一定程度的简化,例如采用线性化假定、设定通用函数等,从而构建实证模型来进行因果效应的估计,但是这种简化方式必然会带来结果的偏差,因此可以通过引入机器学习方法提升因果效应识别的效果成为了可能。而改进的路径体现在两个方面:
(1)加强样本匹配的随机性,即提升控制组和处理组样本之间匹配过程的随机性,
(2)提升反事实预测的准确度,即对控制组和处理组样本的不可观测效应进行准确预测
1.2.1 样本匹配随机性
在社会科学研究中,很难去真正随机化一个社会实验,因此就需要充分利用观测数据进行随机化条件的创造。Rosenbaum和Rubin提出了一种倾向性得分匹配(PSM)的方法将非随机化的观测数据尽量模拟成随机化实验的重要方法(本质就是将实验组和对照组原本流量不同的群体,通过PSM变成流量分布一致的)。
从理论上看,倾向性得分是在给定样本特征X时,不同样本接受处理的条件概率,即。
倾向性得分有常规的两步法:
(1)使用Logit模型利用观测数据拟合回归模型,并用该回归模型对所有观测值计算一个范围0~1之间的拟合值,作为各观测样本的倾向得分估计值;因此可以考虑使用不同的机器学习模型学习更加准确的倾向性得分估计值
(2)基于倾向得分估计值对样本进行匹配后估计因果效应。
1.2.2 反事实预测
公式(4)说明了反事实的原因,即只能获取参与与不参与中的一个结果,我们也将这种问题叫做缺失数据问题。
除了上面说到的提升样本匹配随机性之外,可以利用已有的观测数据对未知项进行反事实预测,通过计算实际观测值与反事实观测值之间的差异来估计因果效应。
在PO框架下,因果效应识别问题被转化为了纯粹的精准预测问题,因而机器学习方法能够拼接样本内与样本外的精准预测能力,提升因果效应识别的准确性。下面展开具体说说。
2 基于机器学习的因果效应识别提升方法
2.1 匹配法
样本匹配是因果推断效应识别中极其重要的一环。比如,在社会研究中,双胞胎匹配是被看作最理想的配对样本(理解为实验组和对照组可比较),可以通过控制不可观测的个体因素而得到较为准确的因果效应。但是我们知道,在大多数问题中,这种完美的匹配样本几乎是不存在的。利用已有的观测数据,尽可能的提升样本之间的可比性,主要的方法有两种:
(1)通过协变量进行直接匹配
(2)通过PSM方法进行匹配
机器学习方法在上述两种方法中均能够被应用,并未匹配效果带来一定的提升。
2.1.1 直接匹配
使用协变量进行样本匹配的核心思想是构造一个基于多维协变量的标量距离值,通过设定卡尺(caliper)来筛选距离处理组较近的控制组样本来进行配对匹配,计算一下配对匹配估计量来作为因果效应的估计值:
()
其中表示样本t属于处理组,c(t)表示匹配上的控制组样本,Nt表示处理组样本数量。不过由于距离函数的多种多样和数据集的丰富性,因果效应的估计值也会有所区别
2.1.2 倾向性得分匹配PSM
参考上面说到的两步法。
2.2 断点回归法
断点回归法是一种较为特殊的因果效应识别方法,相比较其他方法:断点回归法在研究设计之初已经完成了控制组和处理组的样本匹配过程。
具体定义是指,当研究的样本对象分别位于断点附近的位置但却受到了不同的政策对待时,被天然的分为了控制组和处理组(比如英语四六级425分的要求)。因此样本在政策钱没有收到特殊的区分对待时,可以认为两个分组的样本的各个协变量特征方面是极其相似的。
断点回归估计主要分为两类:
(1)精确断点回归
(2)模糊断点回归
2.3 双重差分法
控制组与处理组之间的样本因变量差异是第一重差分
两个样本组的因变量差异在两个时期时间的差异是第二重差分
因此时间因素是双重差分法的重要因素,因此用于众多的经济学因果效应实证研究中。在AB测试中也常用于空跑期实验指标就存在天然显著的问题。
双重差分的一个前提假设是匹配后的控制组和处理组样本的因变量(或者说是指标)呈现出平行趋势,即没有政策干预的情况下,两个样本组的指标应该以相同趋势发生变化,表示如下:()
当满足平行趋势假设前提时,反事实结果是可以被准确估计的,从而可以通过双重差分法求出参与者平均因果效应,表示如下:
()
所以当平行趋势假设无法得到满足的时候,公式(13)得到的因果效应就会存在误差,而且随着样本的时间长度增加,平行趋势假设的可能性就会不断下降。
2.4 合成控制法
合成控制法估计因果效应的核心思想与双重差分法一致。
其本质就是当一个对照组和处理组在上策略之前不具有很好的相似性(即指标显著),这个时候就需要对多个控制组进行合成,保证合成后的控制组和处理组具有很好的相似性,从而观察上策略之后的合成控制组和对照组的因果效应估计值。
假设有J个样本,样本1时唯一收到策略错误干预的处理组样本,剩余的J-1个样本均是控制组样本,合成控制法试图找出一组最优的非负权重的向量 且满足,控制组样本在经过最优权重向量加权后形成合成样本,该合成样本与样本1在收到干预措施前具有非常相似的性质(即没有上策略之前,指标不显著),对应的合成控制估计量可以表示为:
()
其中,下标t表示时间,Y表示结果变量。
通过公式(14)来看,双重查分匹配过程看作合成控制法的一个特征,即控制组中去一个样本的权重为1,其余样本的权重为0,就是双重差分法。
参考文献
[1]更精确的因果效应识别:基于机器学习的视角
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:
【机器学习】机器学习视角下的因果推断相关推荐
- 丁鹏:多角度回顾因果推断的模型方法
来源:集智俱乐部本文约23000字,建议阅读20+分钟 本文整理自丁鹏老师的8篇短文,从多角度回顾了因果推断的各种模型方法. [ 导读 ] 推断因果关系,是人类思想史与科学史上的重要主题.现代因果推断 ...
- 多角度回顾因果推断的模型方法
来源:AI干货知识库 推断因果关系,是人类思想史与科学史上的重要主题.现代因果推断的研究,始于约尔-辛普森悖论,经由鲁宾因果模型.随机试验等改进,到朱力亚·珀尔的因果革命,如今因果科学与人工智能的结合 ...
- 留言赠书|因果推断与机器学习,终于有本书能讲明白啦!
随着大数据时代的来临,机器学习技术突飞猛进,并且在人类社会中扮演越来越重要的角色. 例如,你可能已经习惯了每天使用谷歌.百度.Bing等搜索引擎查找信息,或者在电商网站和视频网站的推荐系统 ,以及利用 ...
- 因果推断笔记——数据科学领域因果推断案例集锦(九)
文章目录 1 腾讯看点:启动重置问题 1.1 观测数据 . 实验数据的理论介绍 2.2 启动重置问题阐述:短期.长期.异质 2.3 短期影响的解决 2.4 长期影响构造准实验 2.5 异质性用户 1. ...
- 因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记-- 相关理论:Rubin Potential.Pearl.倾向性得分.与机器学习异同(二) 因果推断笔记--因果图建模之微软开源的dowhy(一) 文章目录 0 观测数据的估计方法 0. ...
- 现代统计的思想飞跃,因果推断!
丁鹏 | 作者 雷博文.孔令仁 | 编辑 <数学文化>2021/第 12 卷第 2 期 | 来源 1. 引言 探求事物的原因,是人类永恒的精神活动之一.从古希腊的哲学到中国先秦的诗歌,都充 ...
- 因果推断——现代统计的思想飞跃
来源:数学文化"公众号 编辑:李达 审核:范杰.李祺垣 1 引言 探求事物的原因,是人类永恒的精神活动之一.从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系的思考.比如,亚里 ...
- 因果推断—现代统计的思想飞跃:过去、现在到未来(伯克利丁鹏博士万字长文)...
来源:专知本文约12400字,建议阅读10+分钟 本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景. 转载自<数学文化>2021/第 12 卷第 ...
- 因果推断笔记——工具变量、内生性以及DeepIV(六)
文章目录 1 理论介绍 1.1 工具变量的三个条件 1.2 工具变量的效应估计 1.3 工具变量第四类条件:同质性 1.4 工具变量第四类条件:单调性 1.5 工具变量三个条件的剖析 1.6 一些对和 ...
最新文章
- sudo找不到命令:修改sudo的PATH路径
- fedora12安装小企鹅输入法
- 娱乐百分百-20090318 星光四班 - 健康程序员,至尚生活!
- 《概率论与数理统计习题全解指南》中的“计算机得”
- Day09: socket网络编程-OSI七层协议,tcp/udp套接字,tcp粘包问题,socketserver
- 项目中记录影响性能的缓慢数据库查询
- CAN笔记(9) 位填充
- 怎么样建立局域网?一般局域网需要几台电脑才可以?
- 计算机关闭测试模式,win10怎么开启及关闭测试模式 win10测试模式对电脑有影响吗...
- jpg转换成pdf转换器免费版哪个好
- 柱状图中xy轴怎么出现_『怎样设置excel图标的x、y轴』excel图表xy轴名称
- 基于金字塔模型的自动化测试设计
- ArcGIS:如何利用栅格数据进行路径网络分析-可达性分析?
- 《JSP实用教程(第4版)》第2章学习笔记
- 使用python多线程下载网络小说并结合calibre制作电子书
- Github 上火热的十个 Python 项目,从Debug工具到AI水军、量化交易系统。( 嗨学编程)
- Android P 适配
- ESP8266断网后自动重新连接Wi-Fi网络
- 数论概论笔记(二)勾股数组
- 2021GDOI游记
热门文章
- 常用模块-----configparser subprocess
- Ajax请求Session超时的解决办法:拦截器 + 封装jquery的post方法
- global cache cr request
- Logger日志级别说明及设置方法、说明 (zhuan)
- Atitit。Web server Jetty9 使用 attilax 总结
- 【java/C# 服务器】IOS 配置推送证书 p12文件流程 - 勿以己悲
- Socket连接的小知识,和一个疑难杂症
- python中mat函数_python matplotlib中的subplot函数使用详解
- 真实临床“生态”下实效性研究的挑战和意义
- php怎样解析数组,PHP 数组 Array 解析