上次写了统计学里面的置信度与置信区间以后,文章反响还不错,这次再来试着写写统计学里面的假设检验。

假设检验的核心其实就是反证法。反证法是数学中的一个概念,就是你要证明一个结论是正确的,那么先假设这个结论是错误的,然后以这个结论是错误的为前提条件进行推理,推理出来的结果与假设条件矛盾,这个时候就说明这个假设是错误的,也就是这个结论是正确的。以上就是反证法的一个简单思路。

了解完反证法以后,我们开始正式的假设检验,这里还是引用一个大家都很熟悉的一个例子『女士品茶』。

女士品茶是一个很久远的故事,讲述了在很久很久以前的一个下午,有一群人在那品茶,这个时候有位女士提出了一个有趣的点,就是把茶加到奶里和把奶加到茶里面最后得到的『奶茶』的味道是不一样的。大部分人都觉得这位女士在瞎说,只有其中一位男士提出了要用科学的方法去证明到底一样不一样(牛人想问题角度永远都是那么独特,多想想别人为什么那么说,而不是一上来就不经思考的拒绝)。

接下来,我们具体看一下这一位男士是怎么去证明的。首先他假设了把茶加到奶里和把奶加到茶里面得出来的『奶茶』味道是一样的。然后随机把这两种『奶茶』端给女士,让女士品,是先加的奶还是先加的茶,如果女士都能品对,说明确实有差异,如果要是品不对,说明是没差异的。这里面就涉及到一个问题,让女士品多少杯呢,品一杯肯定是不行的,因为任意一杯猜对(瞎蒙)的概率都有50%。下面是不同杯数对应的猜对的概率(注意,这里是猜对而不是品对)。

通过上表我们可以看出,连续4杯都猜对的概率不足0.1,连续10杯都猜对的概率不足0.001。如果把奶加到茶里和把茶加到奶里面得到的『奶茶』真没有差别,也就是女士要想品对,基本全靠猜,但是10杯全部猜对的概率不足0.001,我们把这种概率很小很小(这里需要定义一下,具体多小算小概率事件)的事件称为小概率事件。我们认为小概率事件一般是不会发生的,如果发生了,说明我们的认知就是错误的,也就是说女士品茶不是靠猜的,也就是把奶加到茶里和把茶加到奶里面得到的『奶茶』的确是有差别的。

我们把上面这个过程就叫做假设检验

了解完假设检验的思想以后,我们来看一下具体步骤:

step1:提出零假设和备择假设;

零假设(H0)一般是我们要推翻的论点,备择假设(H1)则是我们要证明的论点。拿上面的女士品茶例子来讲。

H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是一样的。
H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是不一样的。

step2:构造检验统计量,并找出在H0假设成立的前提下,该统计量所服从的分布;

检验统计量是根据样本观测结果计算得到的样本统计量,并以此对零假设和备择假设做出决策。

图片来源于网络

上面图片中是三种不同的统计量以及其对应的分布,分别叫做Z检验、T检验、卡方检验。

Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。
T检验:主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
卡方检验:卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

下面为三种检验对应的分布图:

正态分布

T分布,与正态类似

卡方分布,n为自由度

根据不同检验的特征,我们可以根据下图来进行选择合适的检验方式:

step3:根据要求的显著性水平,求临界值和拒绝域

还记得我们在前面提到的小概率事件吗?如果小概率事件发生了,就表示我们的零假设是错误的,可是具体多小的概率才算是小概率呢?一般这个概率为0.05,也就是5%,如果一件事情发生的概率小于等于5%,我们就认为这是一个小概率事件,0.05就是显著性水平,用α表示。显著性水平把概率分布分为两个区间:拒绝区间和接受区间,最后计算出来的结果落在拒绝区间,我们就可以拒绝零假设;如果落在了接受区间,我们就需要接受零假设。1-α称为置信水平(置信度)。

现在我们知道了显著性水平了,然后就可以根据显著性水平求得临界值和拒绝域了。那具体怎么求呢?这里的临界值就是z值(正太分布用z值)或t值(t分布用t值),以临界值为端点的区间称为拒绝域。z值和t值直接根据显著性水平然后到对应的z值表和t值表中查询即可。

下图为双侧检验和单侧检验对应的α、1-α、临界值、拒绝域、接受域的情况,其中α是表示阴影部分的面积,而不是x轴的值。

双侧检验

单侧检验

到这里显著性水平对应的临界值和拒绝域就算出来了。

step4:计算检验统计量

根据我们在前面选择检验统计量类型,计算对应的检验统计量的值。除此之外我们还可以根据样本量得出P值,P值就是实际样本中小概率事件的具体概率值。

step5:决策

比较计算出来的检验统计量与临界值和拒绝域,如果值落在了拒绝域内,那我们就要拒绝零假设,否则接受零假设。

比较计算出来的P值和显著性水平α值,如果P值小于等于α,则拒绝零假设,否则接受原假设。

上面两种方法分别叫做统计量检验和P值检验。

以上就是假设检验的一般流程。除此之外,假设检验里面还有两种错误,第一类错误叫做弃真错误,通俗一点就是漏诊,就是本来是生病了(假设是正确的),但是你没有检测出来,所以给拒绝掉了;第二类错误是取伪错误,通俗一点就是误诊,就是本来没病(假设是错误的),结果你诊断说生病了(假设是正确的),所以就把假设给接受了。

最终判断 H0本来正确 H0本来错误
拒绝H0假设 犯I型错误 正确
接受H0假设 正确 犯II错误

I型错误的值一般为0.05,II型错误的值一般为0.1或0.2,除此之外还有一个指标叫做功效(power),power = 1 - II型错误的值,power 表示你有多大把握能够正确的拒绝你的零假设H0。

关于假设检验我们就讲到这里,后面会分享统计学里面的其他知识,如果有想看的内容,可以评论区留言。

热门文章

直戳泪点!数据从业者权威嘲讽指南!

AI研发工程师成长指南

数据分析师做成了提数工程师,该如何破局?

算法工程师应该具备哪些工程能力

数据团队思考:如何优雅地启动一个数据项目!

数据团队思考:数据驱动业务,比技术更重要的是思维的转变

数据分析师必备知识点:统计学的假设检验相关推荐

  1. 数据分析师必备知识点:置信度与置信区间

    今天这篇聊聊统计学里面的置信度和置信区间,好像没怎写过统计学的东西,这篇试着写一写. 1.点估计 在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知道了. 现在你想要知道一个 ...

  2. 优秀大数据分析师必备8大技能

    什么是大数据分析师? 简而言之,大数据分析师就是使用技术技能来分析数据和报告见解的人. 通常,大数据分析师可能会使用SQL技能从公司数据库中提取数据,使用编程技能来分析该数据,然后使用沟通技巧来将其结 ...

  3. 大数据分析师必备的5项技能,否则只能是水货

    大数据分析师必备的5项技能,否则只能是水货 如今是一个数据说话和数据竞争的时代,因此大数据分析师这个职业水涨船高,市场需求很大.这里先了解一下什么是大数据分析师.大数据分析师是数据师的一种,指的是不同 ...

  4. 2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

    2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

  5. Python 数据分析师必备的入门学习路线和技能

    最近几年,做的这些项目,大多与数据分析与算法应用相关.岗位虽然是算法工程师,但是与数据分析打得交道也很多,双管齐下,最后才能确保算法的落地.在几年前,我还想当然地认为做算法的就应该偏重算法研究与应用, ...

  6. 【干货收藏】数据分析师必备的20种分析思维

    作为新手数据分析师或数据运营,在面对数据异常的时候,好多小伙伴都会出现: " 好像是A引起的 " ," 好像也和B渠道有关 "," 也可能是竞争对手C ...

  7. 【视频特辑】数据分析师必备,快速制作一张强大好用的大宽表

    简介:随着企业数字化进程的逐步推进,在日常经营过程当中会沉淀下越来越多的数据信息. 每当想做数据分析的时候,就会发现想要的指标分散在不同的数据源.数据集.数据表当中. Quick BI的数据关联功能, ...

  8. 2022最该收藏的3类8款可视化工具,数据分析师必备

    数据可视化是近几年比较热门的话题,作为一名数据分析师,不仅要能挖掘数据存在的价值,而且要以可视化的方式展示出来.大家一般在数据分析方面十拿九稳,但一提到可视化就有些忐忑了.老李给大家梳理了10个可视化 ...

  9. 2019数据分析师必备资源(想成为数据分析师的点进来看看吧,小白也能看得懂嗷)

    数据是数据分析师最宝贵的财富,可以通过数据做一些有趣的东西,通过数据可以把一些数据分析理论落到实地,而遗憾的是很多数据分析师或者想学数据分析的朋友都不会爬虫或者找不到数据源.本着学习研究的目的我用了几 ...

最新文章

  1. vue-router路由基础
  2. fail-fast(快速失败/报错机制)-ConcurrentModificationException
  3. 2017第35周日乱记
  4. 教你配置支付宝应用网关和授权回调地址
  5. Java虚拟机-垃圾回收简介
  6. 香橼做空跟谁学发第三枪 跟谁学股价盘后下跌1.37%
  7. TCP粘包问题的解决方案01——自定义包体
  8. hdu 5504 GT and sequence
  9. javascript技巧大全
  10. Swift3.0朝圣之路-Then协议库-绝妙的初始化方式
  11. Protobuf import文件导入其他proto
  12. python如何实现清屏
  13. STM8单片机的中断优先级
  14. 新手学习日记-Javascript和Html 1:如何在html中调用Js函数
  15. 【CSS】:国际色彩标准名称与色值
  16. Js出库入库数量变化
  17. 基于javaweb的医院病历信息管理系统(java+ssm+jsp+bootstrap+easyui+mysql)
  18. 黄一老师:财商思维、信用融资能对你有什么帮助?
  19. 爬取北京链家二手房(requests和selenium)
  20. Java二级页面打不开,什么是二级页面 电脑二级页面打不开了怎么办?

热门文章

  1. 安谋中国(Arm China)校招内推
  2. SCA(Service Component Architecture)编程模型入门
  3. 【高通qdcm使用总结】
  4. pycharm使用pyhive连接hive
  5. MIKE 21 教程 2.3 水动力模块教学:求解方程与参数设置(Solution Technique),水深校正设置(Depth Correction)
  6. 【C4D】OC渲染器常见问题以及解决方案
  7. 《解析卷积神经网络—深度学习实践手册》—学习笔记
  8. QIIME2进阶一_用QIIME2解析序列,诠释生命
  9. [Geek Challenge 2022] crypto部分
  10. 证据理论(3)—— 计算两个证据体的距离