此文是《10周入门数据分析》系列第10篇

想了解学习路线,可以先阅读“ 学习计划 | 10周入门数据分析 ”


讲完概率分布,再来讲讲统计学的最后一个知识点——假设检验。

假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立,采用逻辑上的反证法,依据统计上的小概率原理。

为了更好的解释,这里举个例子。

假设我有一袋豆子,袋子里有红豆,也有黑豆,我想知道红豆和黑豆是不是一样多。若是一个个去看怕是要疯了。于是偷个懒,从袋子里拿了一把豆子,看看这把红豆多还是黑豆多。用这把豆子作为样本,去推断这袋豆子。既然是用样本推断总体,就有抽样误差的可能性。不管袋子里红豆多还是黑豆多,这一把不一定能真实反映这袋豆子,那怎么办呢?这就要用到假设检验了。

说假设检验之前,先要知道小概率事件。统计大牛觉得如果一件事情发生的可能性小于0.05,就可以定义为小概率事件了,也就是说,在一次研究中该事件发生的可能性很小,如果只进行一次研究,可以视为不会发生。

回到豆子的话题。现在是想通过样本(一把豆子)去推断总体(一袋豆子)。先做一个假设,一般是我们心里特别不想承认的那一种可能,也称无效假设。和无效假设对立的是备择假设,是无效假设的对立面。

无效假设:袋子里红豆和黑豆是一样多的,如果观察到红豆黑豆不一样多完全是由抽样造成的。备择假设:袋子里红豆和黑豆的确不一样多。

假定袋子里有100个豆子,50个红豆,50个黑豆。拿的这把豆子有3个红豆,7个黑豆。在无效假设成立的前提下,也就是说红豆黑豆一样多的基础上,能拿到3个红豆、7个黑豆的概率为:

这告诉我们,在红豆和黑豆一样多的假设下,拿到3个红豆7个黑豆的可能性为0.11,是很常见的,说明所做的假设是可以成立的,还没有理由能拒绝无效假设。

假定袋子里有100个豆子,50个红豆,50个黑豆。拿的这把豆子有1个红豆,9个黑豆。

在无效假设成立的前提下,能拿到1个红豆、9个黑豆的概率为:

这告诉我们,在红豆和黑豆一样多的假设下,拿到1个红豆9个黑豆的可能性为0.007<0.05,为小概率事件,在一次研究中是不应该发生的,而现在发生了,可能是所做的假设有问题,有理由拒绝无效假设。

简言之,假设检验的核心思想是小概率反证法,在假设的前提下,估算某事件发生的可能性,如果该事件是小概率事件,在一次研究中本来是不可能发生的,现在发生了,这时候就可以推翻之前的假设,接受备择假设。如果该事件不是小概率事件,我们就找不到理由来推翻之前的假设,实际中可引申为接受所做的无效假设。

假设检验解决那些问题

互联网运营分析师与产品经理都很熟悉的方法:ABtest。适用方面:往往新版本或者新功能上线之前,需要验证新需求的是否有正收益,传统模式往往就是新版本发布,然后观察留存率、跳转率等核心指标,如果观察表现期内,流量正增长,那么则认可该版本,如果效果反馈不佳,则快速回滚旧版本。但在移动互联网时代,千人千面讲究用户差异化的时代,产品经理在面对海量用户流量,就可以实现ABtest,过程:抽样小规模流量,进行灰度测试,检验新需求是否有正收益,如果观察周期校验效果显著,则大规模上线测试迭代,直至全流量覆盖。

ABtest其本质核心就是假设检验,但是实际操作中,这里有几个关键:

1、如何设计抽样,尽量实现对照实验两边公平;

2、如何提高灵敏度,即效果收益稳定性,多组交叉验证流量平衡;

3、对照组设置,避免引入干扰因素;

4、收益评价指标,正收益、用户体验,当然我们T检验也要通过。

实际应用中,我们会发现产品经理的脑洞实在太大,需求太多,能否实现少设置测试流量批次?能否缩短收益评价周期?这里就牵涉到上面第一个问题:如何抽样?抽样才是ABtest关键,根本原则是希望控制对照组两边客群一样,尽量公平。抽样方法也很多:简单抽样、分层抽样、正交抽样等等。这里为何提到一个正交抽样呢?正交抽样满足一次测试,多组对照的抽样方法。关于细节,大家可以关注并评论,后面我给相应解答。

实际上用户增长运营是件很有挑战工作,单纯数据流量ABtest是用户体验辨别方法,如果从运营监控角度去分析,也需要从不同群组去分析客群增长模型,学会从业务中抓取核心关键公式或者模型,然后细化至各个维度,交叉对比,隐藏冰山下问题。

假设检验实操

假设检验常用的方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。以t-假设检验举例。

某药厂研发了一种能够降低血压的新药,现在为了了解该药的疗效,随机抽取了15名高血压患者,并得到他么在使用该药治疗前后的舒张压数据,如下图所示,现在需要判断:该药是否有效?如果有效,是否能够让高血压患者的舒张压平均降低6.5mmHg?

根据上面的数据,我们可以使用Excel中的假设检验方法来判断(以前我用手算过,好累呀,有了Excel等工具,很简单方便,省时省力)。分析工具中的假设检验方法有多种,使用不同的方法,观察值在检验前后的关系就不同,所以需要先选择合适的方案。

由于样本量较小,且样本值中的观察值存在治疗前后的配对关系,所以可先使用“t-检验:平均值的成对二样本分析”方法判断该药的有效性,我们首先假设该药无效(一般先否定,然后计算检验否定原假设(如果正确的话)),然后进行假设检验。

第1步:选择分析工具(Excel老朋友了)。“数据分析”——“分析工具”——“t-检验:平均值的成对二样本分析”,确定即可。如下图所示:

第2步:设置相关参数。在“t-检验:平均值的成对二样本分析”对话框中,设置“输入”组中“变量1的区域”为“$B$2:$B$17”,“变量2的区域”为“$C$2:$C$17”,选择“标志”复选框,设置“α”值为“0.05”,在“输出选项”下单击“输出区域”,设置为“$E$2”,最后确定。如下图所示:

第3步:设置假设平均差。重复上一步骤,其他参数不变,这次设置“假设平均差”为“6.5”,“输出区域”为“$I$2”。这一步,“假设平均差”为期望中的样本均值的差值,如果该值设为0,即假设样本均值相同。

第4步:显示分析结果。做完之后,我们就可以看到t-检验的结果:H列左侧为第2步中检验该药是否有效的数据结果,H列右侧为第3步中检验该药是否能让舒张压降低6.5mmHg的检验结果。如下图所示:

上面的案例中,由于没有充分的理由判断该药治疗后的总体均数会大于或小于治疗前的舒张压均值,所以在检验过程中,前面的t-检验我们采用的是双侧检验。

从分析结果看到:H列左侧的检验结果中,tStat=4.211,P双尾=0.00087,t双尾临界=2.145,当t双尾临界时,假设成立,而这个案例中,检验结果tStat>t双尾临界,说明该结果拒绝原假设,也就是说该药有效,此外,我们还能看到P双尾=0.00087<α=0.05,这一比较结果也说明该结果拒绝原假设,同样说明该药有效。

由于已经确定该药有效,那么再判断该药能否将舒张压平均值降低6.5mmHg,所以,后面的t-检验采用的是单侧检验,这里我们设置了假设平均差,上图中红框内,检验结果tStat=0.205<t单尾临界=1.761,说明该假设成立,即该药能够让高血压患者的舒张压平均降低6.5mmhg。结果p单尾=0.42>α=0.05也说明了该假设成立。</t单尾临界=1.761,说明该假设成立,即该药能够让高血压患者的舒张压平均降低6.5mmhg。结果p单尾=0.42>

今天学习一下Excel中如何进行t-检验,数据分析更进一步。


到这里统计学部分就讲完了。

更多干货在公众号等你~

下一次将分享BI分析~

数据分析必备的统计学(二):假设检验相关推荐

  1. 数据分析必备的统计学知识(一)

    数据分析师的必备技能栈里,除了熟悉业务.掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识. 为什么对于数据分析师来说 ...

  2. [数据分析自学帮手]数据分析必备的统计学知识大梳理,还不赶紧收藏?

    目录 写在前面的话 今天的主题是数据分析要用到的统计学知识 如何学到统计学知识? 概率与概率分布 样本空间 随机事件 概率 概率分布 用图表演示数据 1.数据类型 2.统计表 3.统计图 数据的概括性 ...

  3. 【入门】数据分析必备——统计学入门基础知识

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:木木自由 作者:小陌One old watch, like brie ...

  4. 数据分析必备——统计学入门基础知识

    数据说·梦想季 成功的关键在于相信自己有成功的能力.数据之路,与你同行!--数据说·梦想季 导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析 ...

  5. 学习数据分析,数据分析必备的技能有哪些

    近几年,越来越多的人开始向大数据靠近.很多人对代码学习非常困难,逻辑思维跟不上.这个时候他们就会考虑大数据的另外一个方向--大数据分析学习.大数据分析学习,不仅适合零基础的学员,学习相对容易,同时学成 ...

  6. excel概率密度函数公式_Excel统计函数“F”系列,日常办公数据分析必备7大公式!...

    原标题:Excel统计函数"F"系列,日常办公数据分析必备7大公式! Excel统计函数"F"系列,以下7个全会用的都是数据分析领域,大佬级别的人物,像小编这样 ...

  7. 数据分析必备十大思维(下)

    "在上一篇文章<数据分析必备十大思维(上)>中,我们总结了数据分析必备的前五大分析思维,今天这篇文章给大家带来后五大分析思维,和十大分析思维系列做个了断." 六.分类思 ...

  8. python 鱼骨图_数据分析必备的三种思考模型

    原标题:数据分析必备的三种思考模型 新人学习数据分析有个误区,认为Excel很Low,SQL做久了又是表哥表姐,学习python又陷入无尽的工具包中不能自拔,迷茫到找项目学习,结果是分析又不得要领,说 ...

  9. 数据分析必备——SQL入门基础知识

    数据说·梦想季 一直很喜欢一句话:山鸟与鱼不同路,从此山水不相逢.意思就是如果你现在不够优秀,即使遇见了,也不配拥有-...努力是唯一的方向! // 导读:科学技术的快速发展正在改变我们的社会,也在不 ...

最新文章

  1. 深度丨2018年AI依然要面临解决的的5大技术难题
  2. android 对比win10 耗电,win10系统下像何查看耗电的应用程序
  3. 【 MATLAB 】DFT性质讨论(一)线性、循环反转、共轭与实序列的对称性的MATLAB实现
  4. win 系统配置 openal
  5. Android中GridView的实现实例
  6. [RabbitMQ+Python入门经典] 兔子和兔子窝
  7. MySQL查询in操作 查询结果按in集合顺序显示(转)
  8. 如何修改7 服务器配置,centos7修改服务器配置
  9. linux php没有bin,php - 执行Linux命令没有报错但也没有输出
  10. .NET组件程序设计0723
  11. Sencha touch 开发系列:容器组件:tabpanel,carousels
  12. php td背景颜色改变,JavaScript实现点击单元格改变背景色的方法
  13. 【PCIe 协议】听说你做 PCIe 很多年,还不知道 PCIe Hierarchy ID 是什么 ???
  14. C语言面试题大汇总之华为面试题
  15. 文件夹被隐藏生成同名.exe文件的文件夹图标病毒你还不会解决?
  16. A股日内回转交易方法有哪些?
  17. 京东开源组件库NutUI 3.1 正式发布:开启多端开发之路
  18. 【STM32学习】(30)STM32实现18B20温度采集(标准库和HAL库实现)
  19. 【目录】博客目录 | 先点这里
  20. Change Log - 更改日志

热门文章

  1. 如何监视SQL Server tempdb数据库
  2. ssis 数据转换_SSIS数据透视和SSIS数据透视转换概述
  3. sql隐式连接和显示链接_SQL Server中的嵌套循环联接–批处理排序和隐式排序
  4. BayaiM__oracle切换归档模式步骤:
  5. 枚举编写单例是可以保证在多线程中的安全性
  6. 直接插入_折半插入(python)
  7. BZOJ4001[TJOI2015]概率论(数学、期望、生成函数、卡特兰数)
  8. dskinlite(uieasy mfc界面库)使用记录3:绘制动态元素(按钮控件通过隐藏方式修改图片显示)...
  9. Web-Scale-IT 到底是啥?
  10. cn.cw.gps.domain.VisitReport.setVisitID([Ljava.lang.String;)]