目录

1.假设检验的基本问题

2.一个总体参数的检验

3. 两个总体参数的检验

1.假设检验的基本问题

假设检验是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。

1.1 假设的陈述

1.对总体参数的具体数值所作的陈述,称为假设,或称为统计假设。
2. 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。
3. 通常将研究者想收集证据予以支持的假设称为备择假设,或称为研究假设,用H1或Ha表示。
4.通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用H0表示。


备选假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。
在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验。如果研究者选择的备选假设的方向是“<”,称为左侧检验反之选择是“>”,称为右侧检验。
备选假设没特定的方向性,并含有符号“!=”的假设检验,称为双侧检验或双尾检验。

1.2 两类错误与显著性水平

当原假设为真时拒绝原假设,所犯的错误称为第一类错误, 又称弃真错误。犯第一类错误的概率通常记为a.
当原假设为假时没有拒绝原假设,所犯的错位称为第二类错误,又称取伪错误。犯第二类错误的概率通常记为b。
假设检验中犯第一类错误的概率,称为显著性水平,记为a。

1.3 统计检验量与拒绝域

根据样本观测结果计算得到的,并据以对原假设和备选假设作出决策的某个样本统计量,称为检验统计量。
标准化检验统计量=(点估计量-假设值)/点估计量的抽样标准差
能够拒绝原假设的检验统计量的所有可能取值的集合,成为拒绝域。
根据给定的显著性水平确定的拒绝域的边界值,称为临界值。

1.4 利用P值进行决策

在原假设为真的条件下,检验统计量的观测值大于或等于其计算值的概率。称为P值,也称为观察到的显著性水平。

2.一个总体参数的检验

2.1 总体均值的检验

在对总体均值进行假设检验时,采用什么检验步骤和检验统计量取决于我们所抽取的样本是大样本(n>=30)还是小样本(n<30),此外还需要区分总体是否服从正态分布、总体方差o2是否已知等几种情况。

2.1.1 大样本的检验方法
样本均值经标准化后服从标准正太分布,因而采用正太分布的检验统计量。设假设的总体均值为u0,当总体方差o2已知时,总体均值检验的统计量为:

当总体方差o2未知时,可以用样本方差s2来近似代替总体方差,此时总体均值检验的统计量为:

例题如下:


2.1.2 小样本的检验方法

在小样本(n<30)情形下,检验统计量的选择与总体是否服从正太分布,总体方差是否已知有着密切联系。
当总体方差o2已知时,即使在小样本情况下,检验统计量认可根据大样本的计算方式进行计算。
当总体方差o2未知时,需要用样本方差s2代替总体方差o2,此时不再服从标准正态分布,而是服从n-1的t分布。因此需要采用t分布来检验总体均值,通常称为t检验,检验的统计量为:

2.2 总体比例的检验


在构造检验统计量时,我们仍然利用样本比例p与总体比例pi之间的距离等于多少个标准差op来衡量,因为在大样本情形下统计量p近似服从正态分布,而统计量


2.3 总体方差的检验*

与总体均值和总体比例检验通常使用的抽样分布不同,它使用的是卡方(y2)分布。此外,总体方差的检验,不论样本容量n是大或小,都要求服从正态分布,这是由检验统计量的抽样分布决定的。
检验统计量为

3. 两个总体参数的检验

3.1 两个总体均值之差的检验

在实际研究中,我们常常需要比较两个总体的差异,如一所学校的重点班和普通班两个班级的英语平均成绩是否有显著差别等。

3.1.1 两个总体均值之差的检验:独立样本

(1)大样本的检验方法
在大样本情况下,两个均值之差x1-x2的抽样分布近似服从正态分布,而x1-x2经过标准化后则服从标准正态分布,如果两个总体的方差o1,o2已知,则采用下面的检验统计量:

当两个总体方差o1,o2未知时,可以分别用样本方差s1,s2替代,此时检验统计量为:





(2)小样本的检验方法
在两个样本都为独立小样本的情况下,检验两个总体的均值之差,需要假定两个总体都服从正态分布。检验时有四种情况:
1)总体服从正态分布,当两个总体方差o1和o2已知时,无论样本容量大小都服从正态分布,可用大样本的公式
2)总体服从正态分布,当两个总体的方差o1和o2未知但相等时,即o12=o22,则需要样本的方差来估计,公式为:

这时,两个样本均值之差经标准化后服从自由度为(n1+n2-2)的t分布,因此采用下面的检验统计量为:

3)总体服从正态分布,当两个总体的方差o1和o2未知且不相等时,o12!=o22,如果两个样本容量相等,即n1=n2=n,两个样本均值之差经标准化后服从自由度为(n1+n2-2)=2(n-1)的t分布,因而采用的检验统计量为:

4)总体服从正态分布,当两个总体的方差o1和o2未知且不相等时,o12!=o22,而且两个样本容量不相等,即n1!=n2,两个样本均值之差经标准化后服从自由度为(n1+n2-2)的t分布,而是近似服从自由度为v的t分布,因而采用的检验统计量为:

该统计量的自由度为v,其计算公式为



3.1.2 两个总体均值之差的检验:匹配样本
d:第i个配对样本数据的差值,i=1,2,3,…,n;
d把:配对样本数据差值的平均值,即d把=di的和/n;
s2:配对样本数据差值的方差

对于小样本情形,配对差值服从自由度为n-1的t分布,统计量为

3.2 两个总体比例之差的检验

两个总体比例之差的检验思路与一个总体比例的检验类似,只是涉及两个总体,可以得到检验统计量


但由于两个总体的比例pi1和pi2是未知,需要采用两个样本比例p1,p2来估计op1-p2.这时又两种情况:
第一种情况是原假设成立的情况下,即H0:pi1-pi2=0或H0:pi1=pi2,pi1=pi2=pi的最佳估计量是将两个样本合并后得到的合并比例p.如果设x1表示样本1中具有某种属性的单位数,x2表示样本2具有某种属性的单位数,则合并后的比例为:

这时两个样本比例之差pi1-pi2抽样分布的标准差opi1-pi2的最佳估计量为:

将公式带入其中得到统计量为

第二种情况是,当我们要检验假设H0:pi1-pi2=d0,d0!=0时,可直接用两个样本比例p1和p2作为相应的两个总体比例pi1和pi2的估计量,标准差估计为

将公式带入其中得到统计量为




3.3 两个总体方差比的检验

由于两个样本方差比s12/s22是两个总体方差比值o12/o22的理想估计量,而当容量为n1和n2的两个样本分别独立得取自两个正态分布时,统计量

服从F(n1-2,n2-1)分布,所以选择上述公式作为统计量。在原假设成立的条件下,检验统量变为



数据学习(十)-假设检验相关推荐

  1. 大数据学习要知道的十大发展趋势,以及学习大数据的几点建议

    2016年,近40%的公司正在实施和扩展大数据技术应用,另有30%的公司计划在未来12个月内采用大数据技术,62.5%的公司现在至少有一个大数据项目投入生产,只有5.4%的公司没有大数据应用计划,或者 ...

  2. 大数据学习之初学者必知的十大机器学习算法

    本文转载自科多大数据,大数据学习都要接触到算法. 本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念.我们希望本文能为理解机器学习基本算法提 ...

  3. 资源 | AI、神经网络、机器学习、深度学习以及大数据学习备忘单

    向AI转型的程序员都关注了这个号☝☝☝ 以下是关于神经网络.机器学习.深度学习以及大数据学习的备忘单,其中部分内容和此前发布的<资源 | 值得收藏的 27 个机器学习的小抄>有所重复,大家 ...

  4. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink

    大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...

  5. 2017年深度学习十大趋势预测

    2017年深度学习十大趋势预测 本文作者曾经多次预测了技术发展的趋势,最近的一次预测是"2011年软件发展的趋势与预测".10项预言中,准确地命中了6项,比如JavaScript ...

  6. 2018大数据学习路线从入门到精通

    最近很多人问小编现在学习大数据这么多,他们都是如何学习的呢.很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么?今天小编特意为大家整理了一份 ...

  7. PyTorch框架学习十九——模型加载与保存

    PyTorch框架学习十九--模型加载与保存 一.序列化与反序列化 二.PyTorch中的序列化与反序列化 1.torch.save 2.torch.load 三.模型的保存 1.方法一:保存整个Mo ...

  8. PyTorch框架学习十八——Layer Normalization、Instance Normalization、Group Normalization

    PyTorch框架学习十八--Layer Normalization.Instance Normalization.Group Normalization 一.为什么要标准化? 二.BN.LN.IN. ...

  9. PyTorch框架学习十六——正则化与Dropout

    PyTorch框架学习十六--正则化与Dropout 一.泛化误差 二.L2正则化与权值衰减 三.正则化之Dropout 补充: 这次笔记主要关注防止模型过拟合的两种方法:正则化与Dropout. 一 ...

  10. PyTorch框架学习十五——可视化工具TensorBoard

    PyTorch框架学习十五--可视化工具TensorBoard 一.TensorBoard简介 二.TensorBoard安装及测试 三.TensorBoard的使用 1.add_scalar() 2 ...

最新文章

  1. socket , 套接口还是套接字,傻傻分不清楚
  2. 【解题报告】Leecode 423. 从英文中重建数字——Leecode每日一题系列
  3. openldap linux客户端,OpenLDAP 客户端安装部署
  4. win10 mysql my.cnf_MySQL配置文件无法修改的解决方法(Win10)
  5. 1w用户的并发量多大_QQ邮件订阅中心下线:卢松松博客曾经有1W多订阅用户
  6. BZOJ2038 小Z的袜子 (莫队算法)
  7. 计算机操作系统版本号怎么查看,Windows系统版本怎么看?2种查看windows版本的方法介绍...
  8. PostgreSQL 10.1 手册
  9. 4种文件扩展名被阻止时发送邮件附件的方法
  10. 竞价推广(SEM)是什么
  11. c#延时函数,不止Sleep函数
  12. 2018 Android面经分享(京东,百度,陌陌,58到家等知名公司)
  13. 【QT 基础教程 九】QVector类详解
  14. Vue笔记(适合后端人员开发的快速入门)
  15. 新闻资讯小程序app
  16. Python私教学员作业「一对一教学」
  17. c语言中funx的作用,c语言中fun用法详解
  18. 5G核心网网元服务异常检测
  19. cmd下修改注册表完全攻略
  20. fm算法详解_FM算法 的总结

热门文章

  1. html5背景好看颜色渐变css样式,CSS3制作渐变背景
  2. 【安全】如何关闭Windows系统的137, 139, 445端口?
  3. fromPCAtoprincipalcurvetoprincipalgraph_拔剑-浆糊的传说_新浪博客
  4. 什么是结构、表现、行为
  5. python语言中整数1010的二进制、八进制_C语言中的二进制数、八进制数和十六进制数...
  6. git cz 代替 git commit,让提交信息更加明确
  7. 计算机导论的平时分多少,2020级计算机导论
  8. 【Eclipse中的Preferences窗口中没有Server的解决方案】【Eclipse配置Tomcat】
  9. SpringBoot2 学习5集成Thymeleaf
  10. 2020级CHD新生训练题题解