因果分析系列2--随机试验

  • 黄金准则
  • 案例分析
    • 背景介绍
    • 数据分析
  • 小结
    • 理想实验
    • 分配机制
    • 小结

黄金准则

在因果分析系列1–入门我们了解了相关与因果的不同之处。我们也看到了使相关成为因果关系的必要条件,即
E[Y∣T=1]−E[Y∣T=0]=E[Y1−Y0∣T=1]⏟ATT+{E[Y0∣T=1]−E[Y0∣T=0]}⏟BIASE[Y|T=1] - E[Y|T=0] = \underbrace{E[Y_1 - Y_0|T=1]}_{ATT} + \underbrace{\{ E[Y_0|T=1] - E[Y_0|T=0] \}}_{BIAS} E[Y∣T=1]−E[Y∣T=0]=ATTE[Y1​−Y0​∣T=1]​​+BIAS{E[Y0​∣T=1]−E[Y0​∣T=0]}​​
从统计意义而言,若无偏差,相关即因果。如果 E[Y0∣T=0]=E[Y0∣T=1]E[Y_0|T=0]=E[Y_0|T=1]E[Y0​∣T=0]=E[Y0​∣T=1],则没有偏差。我们用数学术语解释了如何使相关关系等同于因果关系,但那只是理论上的。现在,我们来看看一个消除偏差的工具:随机实验。随机实验包括将人群中的个体随机分配到处理组或对照组,接受处理的比例不必是50%。如,只有10%的样本得到处理。 随机化通过使潜在结果与是否接受处理独立而消除偏差。
(Y0,Y1)⊥⁣ ⁣ ⁣⊥T(Y_0, Y_1) \perp\!\!\!\perp T (Y0​,Y1​)⊥⊥T
一开始会觉得困惑(对我来说)。如果结果与处理无关,这不也意味着处理没有效果吗?嗯,是的!但请注意,此处不是在谈论结果。相反,我们说的是潜在的结果。潜在结果是在处理组( Y1Y_1Y1​ )或对照组( Y0Y_0Y0​ )下的结果如何。在随机试验中,我们不希望结果取决于处理,因为我们认为处理会导致结果。但我们希望潜在结果独立于处理。

如果说潜在结果与处理无关,即预期处理组或对照组的结果是一样的。简单地说,这意味着处理组和对照组具有可比性。或者知道处理任务并不能给我任何关于处理前结果如何的信息。因此,(Y0,Y1)⊥T(Y_0,Y_1)⊥T(Y0​,Y1​)⊥T意味着处理是唯一在处理组和对照组的结果之间产生差异的东西。要看到这一点,请注意,独立性恰恰意味着
E[Y0∣T=0]=E[Y0∣T=1]=E[Y0]E[Y_0|T=0]=E[Y_0|T=1]=E[Y_0] E[Y0​∣T=0]=E[Y0​∣T=1]=E[Y0​]
正如我们所见,这使得
E[Y∣T=1]−E[Y∣T=0]=E[Y1−Y0]=ATEE[Y|T=1] - E[Y|T=0] = E[Y_1 - Y_0]=ATE E[Y∣T=1]−E[Y∣T=0]=E[Y1​−Y0​]=ATE
所以,随机化为我们提供了一种简单的方法来区分处理组和对照组,并称之为处理效应。

案例分析

背景介绍

2020年,全球爆发新冠疫情迫使企业适应社会距离。送货服务变得广泛,大公司转向远程工作策略。对于学校来说,开始了线上教学。截至目前,已经一年多了,许多人都在想,所引起的变化能否维持下去。毫无疑问,在线学习有它的好处。它可以节省房地产和交通,所以更便宜。它可以利用来自世界各地的学习内容,而不仅仅是来自固定教师,所以更加数字化。尽管如此,我们仍然需要回答在线学习是否对学生的学习成绩产生了积极或消极的影响。

回答这个问题的一种方法是,把主要开设在线课程的学校的学生与传统课堂授课的学校的学生进行比较。但由于偏差,这不是最好的办法。在线学习可能只吸引那些纪律严明的学生,他们的表现比平均水平要好,此时会有一个正向的偏差,即处理组在学习上优于未处理组:(E[Y0∣T=1]>E[Y0∣T=0])(E[Y_0|T=1] > E[Y_0|T=0])(E[Y0​∣T=1]>E[Y0​∣T=0])。

另一方面,可能是线上学习更便宜,而且大部分是由不太富裕的学生组成,他们除了学习之外可能还要工作。在这种情况下,这些学生的表现会比那些来自贵族学校的学生差,即使他们参加了预备班。如果是这样的话,我们会有另一个负向的偏差,即处理组在学术上比未处理组更差:(E[Y0∣T=1]<E[Y0∣T=0])(E[Y_0|T=1] < E[Y_0|T=0])(E[Y0​∣T=1]<E[Y0​∣T=0])。

所以,虽然我们可以依据现实经验做简单的比较,但这不具有说服力。不管怎样,我们永远无法确定是否有未观测的潜在偏差,掩盖了我们的因果关系。

为了解决这个问题,我们需要使处理组和未处理组的个体具有可比性(E[Y0∣T=1]=E[Y0∣T=0])(E[Y_0|T=1] = E[Y_0|T=0])(E[Y0​∣T=1]=E[Y0​∣T=0])。一种方法是随机给学生分配在线课程和演示课程。如果我们能做到这一点,处理组和未处理组平均来说是一样的,除非他们接受处理。

幸运的是,一些经济学家为我们做到了这一点。他们不是随机化学生,而是随机化班级。他们中的一些人被随机分配到面对面授课,另一些人只进行在线授课,第三组则进行在线授课和面对面授课的混合形式。学期结束时,收集他们的线上标准考试数据。

数据分析

读取数据,并查看数据

import pandas as pd
import numpy as np
data = pd.read_csv("./data/online_classroom.csv")
print(data.shape)
data.head()


综上可知,我们有323个样本,包含10个变量。这不是大数据,但我们可以利用它进行因果分析。为了估计因果关系,我们可简单计算每个处理组(face_to_face、online、blended)各个变量的平均得分。

(data.assign(class_format = np.select([data["format_ol"].astype(bool), data["format_blended"].astype(bool)],["online", "blended"],default="face_to_face")).groupby(["class_format"]).mean())


是的。就这么简单。我们可以看到,面对面课程的平均分为78.54分,而在线课程的平均分为73.63分。对于在线学习的支持者来说,这不是什么好消息。因此,在线课程的 ATE 为-4.91。这意味着在线课程会导致学生平均成绩下降5分。在随机分配条件下,我们不必担心在线课程可能会有更穷的学生,他们负担不起面对面的课程,也不必担心来自不同处理的学生在某方面与接受其它处理的学生存在差异。因为通过随机实验设计可以消除这些差异。

出于这个原因,一个好的稳健性检验,看看随机是否做对了(或者如果你看的是正确的数据),就是检查处理前处理组中的变量是否等于未处理组。在我们的数据中,有关于性别和种族的信息,所以我们可以看到他们在不同群体之间是否平等。对于 gender、asian、hispanic和 white变量,它们看起来非常相似。不过,black变量看起来有点不同。这引起了人们对小数据集的注意,即使是随机情况下,也可能一组人和另一组人不同,这是偶然的。在大样本中,这种差异往往会消失。

小结

理想实验

随机实验是获得因果效应最可靠的方法。这是一个简单但极具说服力的技术。它非常强大,所以大多数国家都把它作为展示新药疗效的必要条件。如果我们可以的话,RCT将是我们用来揭示因果关系的唯一方法。设计良好的随机对照试验是大家的梦想。但现实中,RCT要么非常昂贵,要么就是纯粹的不道德。有时,我们根本无法控制分配机制。想象你自己是一个医生,试图估计怀孕期间吸烟对婴儿出生时体重的影响。你不能简单地强迫一部分妈妈在怀孕期间吸烟。或者说你在一家大银行工作,你需要估计信贷额度对客户流失的影响。给你的客户提供随机的信用额度。或者你想了解提高最低工资对失业率的影响。你不能简单地分配国家有一个或另一个最低工资。

可以通过使用条件随机化来降低随机化成本,但对于不道德或不可行的实验,无能为力。尽管如此,每当我们处理因果问题时,理想实验还是值得思考。总是问自己,如果可以的话,为了揭示这种因果关系,最理想的实验是什么? 即使没有理想的实验,这也有助于揭示因果关系。

分配机制

在一个随机实验中,将单位分配给一种或另一种处理的机制是随机的。正如我们将在后面看到的,所有因果推理技术都会设法确定处理的分配机制。当我们明确分配机制时,即使赋值机制不是随机的,因果推理也会更加准确。

不幸的是,不能通过简单地查看数据来发现分配机制。例如,如果你有一个数据集,其中高等教育与财富相关,仅仅看数据你不能确定是哪一个导致了哪一个。你将不得不利用你对世界如何运转的知识来支持一种看似合理的分配机制:是不是学校教育人们,使他们更具生产力,从而使他们获得更高收入的工作。或者,如果你对教育持悲观态度,你可以说学校在提高生产力方面无所作为,这只是一种虚假相关,因为只有富裕的家庭才有能力让孩子获得更高的学位。

在因果问题中,我们通常有两种可能:X引起Y,或者是第三个变量Z同时引起X和Y,因此X和Y的相关性是虚假的。正是由于这个原因,了解分配机制可以得到更加令人信服的因果答案。因果推理需要我们认真思考该数据的生成机制。

小结

我们研究了随机实验是如何最简单、最有效地揭示因果影响的。它通过使处理组和对照组具有可比性来做到这一点。不幸的是,我们不能一直做随机实验,但是思考一下如果我们可以的话,什么是理想的实验仍然是有用的。

熟悉统计学的人现在可能会抗议说我没有考虑因果效应估计的方差。我怎么知道降4.91分不是偶然的?换言之,我如何知道差异是否显著,是否具有统计学意义呢?ok,下一节我们来复习一些统计概念吧。

因果分析系列2--随机试验相关推荐

  1. 因果分析系列1--入门

    因果分析系列1--入门 因果分析系列1--入门 因果简介 相关不是因果 基本符号定义 数值分析 偏差 图解偏差 因果分析系列1–入门 因果简介 目前机器学习非常擅长回答预测问题.新的人工智能浪潮并未给 ...

  2. 因果分析系列6--相关,回归与因果

    因果分析系列6--相关,回归与因果 相关与因果 相关与回归 回归与因果 回归理论 非随机数据的回归分析 相关,回归和因果这些是统计和机器学习中经常提到的一些术语,它们均可通过观测数据定义定义不同变量之 ...

  3. 因果分析系列7--分组和虚拟变量回归

    因果分析系列7--分组和虚拟变量回归 1. 分组数据回归 2.虚拟变量回归 小结 在本文中,我们将介绍如何使用线性回归来处理分组数据和虚拟变量回归.这两种技术都是因果推断中非常有用的工具.我们将首先介 ...

  4. 经由因果分析,反驳AI监控学生上课,及辨别健康类谣言

    来源:混沌巡洋舰 想象这样一个场景,你和你心爱的女孩一起自习,你的理科好,于是你看着她听数学的网课时,有时露出困惑的表情,还有时会走神.然后等她听完,你再把你觉得她没有听懂的部分,给她换一种方式讲出来 ...

  5. BlogEngine.Net架构与源代码分析系列(转载)

    01.BlogEngine.Net架构与源代码分析系列part1:开篇介绍 02.BlogEngine.Net架构与源代码分析系列part2:业务对象--共同的父类BusinessBase 03.Bl ...

  6. 脑电分析系列 | eeglab汇总

    1 脑电分析系列eeglab教程 eeglab教程系列(1)-安装教程 eeglab教程系列(2)-加载.显示数据 eeglab教程系列(3)-绘制脑电头皮图 eeglab教程系列(4)-绘制通道光谱 ...

  7. 脑电分析系列 | MNE-Python汇总

    1 脑电分析系列MNE-Python教程 [MNE-1]| MNE-Python详细安装与使用(更新) [MNE-2]| MNE中数据结构Raw及其用法简介(更新) [MNE-3]| MNE中数据结构 ...

  8. 脑电分析系列[MNE-Python-19]| 可视化Evoked数据

    在前面我们介绍过Evoked的数据结构以及如何创建Evoked对象: 脑电分析系列[MNE-Python-4]| MNE中数据结构Evoked及其对象创建 Evoked potential(EP)诱发 ...

  9. 脑电分析系列[MNE-Python-5]| Python机器学习算法随机森林判断睡眠类型

    案例介绍 本案例通过对多导睡眠图(Polysomnography,PSG)数据进行睡眠阶段的分类来判断睡眠类型. 训练:对Alice的睡眠数据进行训练: 测试:利用训练结果对Bob的睡眠数据进行测试, ...

最新文章

  1. Mybatis使用接口开发
  2. python安装numpy-NumPy 安装
  3. 实用代码-C#之IP地址和整数的互转
  4. ajax如何解决浏览器缓存问题
  5. c++ 随机字符串_关于Python的随机数模块,你必须要掌握!
  6. ServerSuperIO Designer IDE 发布,打造物联网通讯大脑,随心而联。附:C#驱动源代码。
  7. 标准化(Normalization)和归一化实现
  8. Symfony 框架实战教程——第一天:创建项目(转)
  9. mysqld已删除但仍占用空间的_U盘删除的文件在哪?
  10. Java 类加载器揭秘
  11. 软件测试面试题(一)
  12. LoadRunner 详细使用教程
  13. 关于硬盘数据恢复的一些思考
  14. collapse组件样式 react_antd源码分析之——折叠面板(collapse)
  15. PS轻松打造低多边形风格图像
  16. 我的消费记录怎么查看呢?
  17. 激光雷达相关技术方案介绍
  18. 2018.08.21 bzoj4668: 冷战(并查集+启发式合并)
  19. cartographer自动更新地图,2条路径数据合并为1条数据
  20. 西游记中孙悟空所尊敬的神佛

热门文章

  1. 职场002:什么是可迁移能力
  2. 手写简易版Vue源码之数据响应化的实现
  3. Verilog中{}的应用
  4. UEditor .Net版本任意文件上传漏洞复现
  5. GAN论文逐段精读【论文精读】
  6. 抖音xlog算法分析
  7. Android开发学习—指纹识别系统的原理与使用
  8. Ant design vue pro 添加多页签
  9. STM32 | STM32CubeMX基础之TIM
  10. 一分钟集成类似抖音、头条、腾讯视频、网易新闻、飞猪、咸鱼等常用标题栏