因果推断是目前学术界和业界都在研究的热门内容。在常用的数据分析方法中,关注的是事件之间的相关性,而无法去识别事件之间的因果性,而很多时候在做决策与判断的时候,我们需要的是因果性。比如,我们想知道A事件的发生是否会导致B事件的出现,这种“导致”实际上是一种因果关系,而不仅仅是相关关系。目前,因果推断应用于业务数据分析的方法有很多,本文主要介绍一下因果推断中的“断点回归”。

断点回归是自然实验中的一种观察方法,简单理解就是在回归过程中,观察在临界点处是否出现“断点”,并分析引起“断点”的政策因素P对回归的因变量Y的具体影响。举个例子,在分析某一平台博主的收益时,发现关注人数超过10万后,会得到一个“V”的标志,现在想知道,有无“V”对平台博主的收益的影响,就可以使用“断点回归”的方法。接刚才的例子,如果我们使用“断点回归”来分析有无“V”对平台博主的收益的影响,我们可以观察关注人数在10万附近(包括接近10万但不到10万,以及超过10万但超过的不多)的平台博主的收益情况,看是否有显著差别。如果存在显著差别,说明“V”标志的有无会对平台博主的收益产生影响(因果性)。

用数理语言来表达“断点回归”的核心思想就是,对于一个回归方程L(y)=f(x),如果在x=a处引入了一个政策P(这个政策P在实际业务中可以是某个运营活动、某种触发机制、某类奖励等等),使得在x=a的附近邻域(a-e , a+e)内,以x∈(a-e,a)为范围建立的回归方程L1和以x∈(a,a+e)为范围建立的回归方程L2,它们的条件期望是相同的,但截距项不同,则说明政策P在x=a处对回归方程的因变量y产生了显著影响(因果性P→y的改变)。

断点回归常用的模式包括两种,分别是精确断点回归(SRD)和模糊断点回归(FRD)。检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从a跳跃为b,0<a<b<1,则为模糊断点回归。模糊断点回归的特征是:在断点x=c处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。但即使x>c,也不一定得到处理,但得到的处理的概率在x=c处有不连续的跳跃。本质上有点类似于工具变量法。对于模糊断点回归,再举个例子就是:高考成绩上线并不能完全保证上大学,能否上大学还取决于填报志愿,甚至有些上线考生放弃上大学 的机会;而即使成绩未上线,但也可能因某种特长而得到加分,从而得到上大学的机会。上大学的概率确实在分数线的位置上有一个不连续的跳跃。

在业务数据分析中,由于断点回归可以使要研究的内容在断点附近构成一个准自然实验,就可以应用于ABtest这类随机试验无法进行的场景。其中,自然实验实际上是一种观察性研究,是指不加干预地、实验对象自然地分为若干组,对实验对象的结果进行观察比较。

断点回归比较适用于这样一类业务数据分析问题:对于某个业务场景下使用了某种策略S,这种策略S造成某种连续性指标V在V=a处产生了跳跃。举个例子来说,对于提高APP用户营收的业务场景下,使用的策略S为“用户下单次数达到10次后奖励一张100元无门槛优惠券”,检测的连续性指标V为用户的付费金额。如果将用户的下单次数T作为自变量,用户的付费金额W作为因变量绘制散点图,则可能会发现在T=10时产生了“断点”,即左右两侧有跳跃变化,此时就可以在T=10的附近划定一个区域,进行断点回归,以研究该奖励策略S和用户付费金额W的变化之间是否存在因果关系。但要注意的是,在使用断点回归时,也要做一些统计检验,比如平衡性检验等,以确保断点回归的假设前提是满足的。

最后区分一下断点回归和工具变量。断点回归和工具变量之间是突变和渐变之间的关系。断点回归依赖于一个明确的断点,比如一本线,一本线上和下哪怕是0.5分,都是截然不同的两个学校;而工具变量所表达的关系,则可以是一个趋势,比如说下雨和在家看电视,我们知道下雨会导致更大的概率在家看电视,但是我们不能说下雨所有人就一定在家看电视。所以下雨只能成为工具变量,而不能作为断点。用图来表示的话,断点回归泾渭分明,但是代价是只能用断点左右的一部分数据;而工具变量是层次渐进,比断点要模糊,但是能用的数据范围更大。

因果推断:断点回归应用于业务数据分析的思路相关推荐

  1. 利用网络信息减少因果推断中的confounding bias--结合两种思路的新方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本期AI TIME PhD专场,我们有幸邀请到了来自亚利桑那州立大学的博士生郭若城,为我们带来他的精彩分享--利用网络信息减少因果推断中 ...

  2. 投入产出核算的知识应用于业务数据分析的思路

    <国民经济核算>是经济统计学本科生的重要课程,在这门课程里会涉及到一个章节,叫做"投入产出核算".该章节的核心是编制一个投入产出表,用来搭建经济学中理论和事实之间的桥梁 ...

  3. 干货 | 携程火车票基于因果推断的业务实践

    作者简介 Seven,数据分析师,专注用户增长.数据科学等领域. 一.背景 携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的 ...

  4. 数据分析36计(24):因果推断结合机器学习估计个体处理效应

    个体异质性为何重要 传统的因果推断分析,主要关注焦点是平均处理效应(Average Treatment Effect).许多科学和工程都会面临这样的挑战,从个性化的医疗救治方案,到定制型的营销建议都需 ...

  5. 数据分析36计(29):价格需求弹性和因果推断

    目前出现了很多关于机器学习如何实现因果推断的理论论文,但还缺乏实际的应用场景和应用案例,这里探讨如何供应商利用因果推断计算价格弹性,从而指导价格的制定和浮动. 为什么关注价格弹性 经济学课程里谈到价格 ...

  6. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖

    [专栏:前沿进展]因果推断是当下人工智能.机器学习领域中的热门话题之一.在 11 月 26 日的青源 Talk 中,北京大学助理教授.青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝 ...

  7. 因果推断笔记——数据科学领域因果推断案例集锦(九)

    文章目录 1 腾讯看点:启动重置问题 1.1 观测数据 . 实验数据的理论介绍 2.2 启动重置问题阐述:短期.长期.异质 2.3 短期影响的解决 2.4 长期影响构造准实验 2.5 异质性用户 1. ...

  8. 因果推断笔记——自整理因果推断理论解读(七)

    之前有整理过一篇:因果推断笔记-- 相关理论:Rubin Potential.Pearl.倾向性得分.与机器学习异同(二) 不过,那时候刚刚开始学,只能慢慢理解,所以这边通过一轮的学习再次整理一下手里 ...

  9. 因果推断笔记——python 倾向性匹配PSM实现示例(三)

    因果推断笔记-- 相关理论:Rubin Potential.Pearl.倾向性得分.与机器学习异同(二) 因果推断笔记--因果图建模之微软开源的dowhy(一) 文章目录 0 观测数据的估计方法 0. ...

最新文章

  1. “用手机就能访问卫星” 软件定义升级卫星智能
  2. 智课雅思词汇---五、优词词根字典
  3. 如何给定两个gps坐标 算出航向角_如何获得飞机的小扰动模型
  4. matlab dy,高手,请问用matlab如何解下面方程:y*Dy=a+b*y;我的计算结果里面含有wrightOmega ,怎样解出一般解?...
  5. 前端学习(1499):组件特点
  6. UNUSED参数,这个宏,很秀
  7. 单链表的创建、插入、删除、倒置操作
  8. Java 线程第三版 第八章 Thread与Collection Class 读书笔记
  9. Intel IPP密码库 IPPCP 2018——第一部分 基础开发指南
  10. vyos as a firewall
  11. 安信可A9G二次开发的准备工作
  12. 红米Redmi K40手机刷入Magisk获取Root教程
  13. f7功能键使用计算机,【ThinkPad】F1-F12功能键最全使用指南
  14. 如何去理解同花顺l2接口?
  15. 帝国CMS模板,免费帝国CMS模板,帝国CMS建站教程
  16. 使用Burp抓包iphone(苹果)
  17. 打破日韩垄断,研发国产8K传感器芯片的长光辰芯是什么来头?
  18. 卷积滤波 英文_图形学之卷积滤波器
  19. 南昌理工学院计算机应用怎么样,南昌理工学院计算机系哪个专业最好
  20. 计算机底层知识之二进制

热门文章

  1. 极客大学产品经理训练营:PRD 产品原型文档框架 第12课总结
  2. C# 基于AE的GIS二次开发实例-----台风信息系统
  3. NOTE_北大Tensorflow_Chapter5
  4. android 轻量级缓存框架ASimpleCache
  5. 【Vivado使用误区与进阶】XDC约束技巧之时钟篇
  6. python笔记手写_手写笔记的压缩与增强
  7. 多旋翼飞行器电机转动方向大全
  8. 鸿蒙符助战选哪个,航海王燃烧意志最强助阵选择 助战哪个厉害[多图]
  9. 【PCI】ARM架构——PCI总线驱动、RC驱动、Host Bridge驱动、xilinx xdma ip驱动(八)
  10. Kettle 转换与作业