R语言学习笔记5_参数的假设检验
目录
- 五、参数的假设检验
- 5.1 假设检验与检验的P值
- 5.1.1 假设检验的概念与步骤
- 假设检验的基本思想
- 两类错误
- 检验步骤
- 5.1.2 检验的P值
- 5.2 单正态总体参数的检验
- 5.2.1 均值μ的假设检验
- 5.2.2 方差σ^2^的检验:卡方检验
- 5.3 两正态总体参数的检验
- 5.3.1 均值的比较:t 检验
- 5.3.2 方差的比较:F检验
- 5.4 成对数据的 t 检验
- 5.5 单样本比率的检验
- 5.5.1 比率p的精确检验
- 5.5.2 比率p的近似检验(n>30)
- 5.6 两样本比率的检验
五、参数的假设检验
假设总体分布已知先对总体的某个未知参数作某种假设,然后由抽取的样本提供信息,构造合适的统计量,对所提供的假设进行检验,以做出统计判断是接受假设还是拒绝假设。
5.1 假设检验与检验的P值
5.1.1 假设检验的概念与步骤
假设检验的基本思想
- 概率性质的反证法:小概率事件在一次试验中是几乎不可能发生的。
- 要检验某假设H0,先假设H0正确,在此假设下构造某一事件A,其在H0为正确的条件下发生的概率很小;现在进行一次试验,如果事件A发生了(小概率事件发生了),表明有充分理由拒绝“假定H0正确”;反之,如果事件A没有发生,则没有充分理由拒绝H0,接受H0。
- 接受/拒绝H0≠H0正确/错误,只是根据样本所提供的信息以一定的可靠程度认为H0正确或错误。
- 通常把没有把握、不能轻易肯定的命题作为备择假设H1,把没有充分理由就不能轻易否定的命题作为原假设H0(只有理由充分时才拒绝它,否则应予以保留)。
两类错误
1)第一类错误:弃真
P(拒绝H0 | H0为真)=α
2)第二类错误:取伪
P(接受H0 | H0为假)=β
两类错误 此消彼长 唯一让他们都减小的方法是增大样本容量。
通常只对第一类错误的最大概率α加以限制,而不考虑β,这种统计假设检验问题称为——显著性检验,α为假设检验的显著水平。
检验步骤
1)提出原假设H0与备择假设H1;
2)选择检验统计量W并确定其分布;
3)在给定的显著性水平下,确定H0关于统计量W的拒绝域;
4)算出样本点对应的检验统计量的值;
5)判断:若统计量的值落在拒绝域内则拒绝H0,否则接受H0。
5.1.2 检验的P值
检验的P值——在一个假设检验问题中,拒绝原假设H0的最小显著性水平。
P值表示对原假设的怀疑程度/首次拒绝原假设的概率,P值越小,表示原假设越可疑,越应该拒绝原假设。
α≥P,在显著性水平α下拒绝H0; α<P,在显著性水平α下保留H0
5.2 单正态总体参数的检验
5.2.1 均值μ的假设检验
1)方差σ2已知时μ的检验:Z检验
假设检验问题 | 拒绝域 |
---|---|
H0:μ=μ0,H1:μ≠μ0 | { |Z| > z1-α/2 } |
H0:μ≤μ0,H1:μ>μ0 | { Z > z1-α } |
H0:μ≥μ0,H1:μ<μ0 | { Z < - z1-α } |
例:微波炉在炉门关闭状态下的辐射量是一项重要的质量指标。设该指标服从正态分布N(μ,0.12),均值要求不超过0.12。为检查近期产品的质量,从某厂生产的微波炉中抽查了25台,得其炉门关闭时辐射量的均值为0.13,问该厂生产的微波炉炉门关闭时辐射量是否偏高?(α=0.05)
假设H0:μ≤0.12,H1:μ>0.12
> z.test(0.13,25,0.1,0.05,u0=0.12,alternative = "greater")
$mean
[1] 0.13$z
[1] 0.5$p.value
[1] 0.6915$conf.int
[1] 0.0908 0.1692
由于P=0.6915>α=0.05,接受原假设,认为炉门关闭时辐射量没有偏高。
2)方差σ2未知时μ的检验:t检验
假设检验问题 | 拒绝域 |
---|---|
H0:μ=μ0,H1:μ≠μ0 | { |T| > t1-α/2(n-1) } |
H0:μ≤μ0,H1:μ>μ0 | { T > t1-α(n-1) } |
H0:μ≥μ0,H1:μ<μ0 | { T < - t1-α(n-1) } |
例:某车间用一台包装机包装精盐,额定标准每袋净质量500g,设包装机包装出的盐每袋盐净质量X~N(μ,σ2),某天随机的抽取9袋,称得净质量(g)为490,506,508,502,498,511,510,515,512。问该包装机工作是否正常?(α=0.05)
假设H0:μ=500,H1:μ≠500
> x<- c(490,506,508,502,498,511,510,515,512)
> t.test(x,mu=500)One Sample t-testdata: x
t = 2.2, df = 8, p-value = 0.06
alternative hypothesis: true mean is not equal to 500
95 percent confidence interval:499.7 511.8
sample estimates:
mean of x 505.8
由于p-value = 0.06>α,接受原假设,认为该包装机正常。
5.2.2 方差σ2的检验:卡方检验
假设检验问题 | 拒绝域 |
---|---|
H0:σ2=σ02,H1:σ2≠σ02 | { χ2 ≥ χ21-α/2(n-1) 或 χ2 ≤ χ2α/2(n-1)} |
H0:σ2≤σ02,H1:σ2>σ02 | { χ2 ≥ χ21-α(n-1) } |
H0:σ2≥σ02,H1:σ2<σ02 | { χ2 ≤ χ2α(n-1) } |
例:检查一批保险丝,抽出10根测量其通过强电流融化所需的时间(s)为:42,65,75,78,59,71,57,68,54,55。假设融化所需时间服从正态分布,问能否认为融化时间方差不超过80?(α=0.05)
假设H0:σ2≤80,H1:σ2>80
> x<-c(42,65,75,78,59,71,57,68,54,55)
> chisq.var.test(x,80,0.05,alternative = "greater")
$var
[1] 121.8$chi2
[1] 13.71$p.value
[1] 0.8668$conf.int
[1] 57.64 406.02
由于p=0.8668>α,故接受原假设,认为融化的时间方差不超过80.
5.3 两正态总体参数的检验
5.3.1 均值的比较:t 检验
前提:σ12=σ22
假设检验问题 | 拒绝域 |
---|---|
H0:μ1=μ2,H1:μ1≠μ2 | { |T| > t1-α/2(n1+n2-2) } |
H0:μ1≤μ2,H1:μ1>μ2 | { T > t1-α(n1+n2-2)} |
H0:μ1≥μ2,H1:μ1<μ2 | { T < - t1-α(n1+n2-2)} |
例:甲、乙两台机床分别加工某种轴承,轴承的直径分别服从正态分布N(μ1,σ21)、N(μ2,σ22),从各自加工的轴承中分别抽取若干个轴承测其直径,结果如下表所示。设σ21=σ22,问两台机床的加工精度有无显著差异?(α=0.05)
总体 样本容量 直径 X(甲) 8 20.5 19.8 19.7 20.4 20.1 20 19 19.9 Y(乙) 7 20.7 19.8 19.5 20.8 20.4 19.6 20.2
假设H0:μ1=μ2,H1:μ1≠μ2
> x<-c(20.5, 19.8 ,19.7 ,20.4, 20.1, 20 ,19 ,19.9)
> y<-c(20.7, 19.8, 19.5, 20.8, 20.4, 19.6, 20.2)
> t.test(x,y,var.equal = T)Two Sample t-testdata: x and y
t = -0.85, df = 13, p-value = 0.4
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:-0.7684 0.3327
sample estimates:
mean of x mean of y 19.93 20.14
由于p = 0.4>α=0.05,故接受原假设,认为两台机床的加工精度没有显著差异。
5.3.2 方差的比较:F检验
假设检验问题 | 拒绝域 |
---|---|
H0:σ12=σ22,H1:σ12≠σ22 | { F ≥ F1-α/2(n1-1,n2-1) 或 F ≤Fα/2(n1-1,n2-1) } |
H0:σ12≤σ22,H1:σ12>σ22 | { F ≥ F1-α(n1-1,n2-1) } |
H0:σ12≥σ22,H1:σ12<σ22 | {F ≤ Fα(n1-1,n2-1) } |
例:数据同上例,问两台机床加工的轴承直径的方差是否相同?
假设H0:σ12=σ22,H1:σ12≠σ22
> var.test(x,y)F test to compare two variancesdata: x and y
F = 0.79, num df = 7, denom df = 6, p-value = 0.8
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:0.1393 4.0600
sample estimates:
ratio of variances 0.7932
由于p = 0.8>α=0.05,故接受原假设,认为两台机床加工的轴承直径的方差相同。
5.4 成对数据的 t 检验
成对数据:两样本的样本容量相等,除均值外没有差异。
某班级同一单元内容的第二次考试成绩是否比第一次高?
Zi=Xi-Yi , i=1,2,…,n | μ=μ1-μ2 | σ2=σ12+σ22 | Z~N( μ,σ2) |
---|
假设检验问题 | 拒绝域 |
---|---|
H0:μ=μ0,H1:μ≠μ0 | { |T| > t1-α/2(n-1) } |
H0:μ≤μ0,H1:μ>μ0 | { T > t α/2(n-1) } |
H0:μ≥μ0,H1:μ<μ0 | { T < - t α/2(n-1) } |
例:在针织品漂白工艺过程中,要考虑温度对针织品的断裂强度的影响。为了比较70度与80度的影响有无差别,在这两个温度下分别重复做了8次试验,数据如下表所示(单位:N)。根据经验,温度对针织品断裂强度的波动没有影响。问在70度时的平均断裂强度与80度时的平均断裂强度是否有显著差别?(α=0.05)
70度时的强度 20.5 18.8 19.8 20.9 21.5 19.5 21.0 21.2 80度时的强度 17.7 20.3 20.0 18.8 19 20.1 20.0 19.1
假设H0:μ=μ0,H1:μ≠μ0,μ=μ1-μ2
1)方法一:
> x<-c(20.5 ,18.8, 19.8, 20.9 ,21.5 ,19.5, 21.0 ,21.2)
> y<-c(17.7, 20.3, 20.0, 18.8, 19 ,20.1, 20.0 ,19.1)
> t.test(x,y,paired = TRUE)Paired t-testdata: x and y
t = 1.8, df = 7, p-value = 0.1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:-0.3214 2.3714
sample estimates:
mean of the differences 1.025
2)方法二:
onesamp(dset, x="unsprayed", y="sprayed", xlab=NULL, ylab=NULL, dubious=NULL, conv=NULL, dig=2)
dset 为有两列的数据框或矩阵,x 为处于”predictor“地位的列名,y为处于”response“地位的列名
> z<-data.frame(x,y)
> > onesamp(z,x='y',y='x')x 0.9411 0.8876 1.61 One Sample t-testdata: d
t = 1.8, df = 7, p-value = 0.1
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:-0.3214 2.3714
sample estimates:
mean of x 1.025
5.5 单样本比率的检验
设样本服从binom(1,p),T=样本和~binom(n,p)
5.5.1 比率p的精确检验
假设检验问题 | 拒绝域 |
---|---|
H0:p=p0,H1:p≠p0 | { T ≤ c1或T ≥ c2 },c1 < c2 |
H0:p≤p0,H1:p>p0 | { T ≥ c} |
H0:p≥p0,H1:p<p0 | { T≤ c '} |
可以通过二项分布/F分布来确定临界值c,用binom.test()
完成原假设的检验
5.5.2 比率p的近似检验(n>30)
样本容量较大时,比例p的抽样分布近似服从正态分布。
假设检验问题 | 拒绝域 |
---|---|
H0:p=p0,H1:p≠p0 | { |Z| > z1-α/2 } |
H0:p≤p0,H1:p>p0 | { Z > z1-α } |
H0:p≥p0,H1:p<p0 | { Z < - z1-α } |
例:某产品的优质品率一直保持在40%,近期监督部门抽查了12件产品,其中优质产品为5件,问在α=0.05水平上能否认为其优质频率仍保持在40%?
假设H0:p=p0,H1:p≠p0,由于n=12<30,适合作精确检验。
> binom.test(c(5,7),p=0.4)Exact binomial testdata: c(5, 7)
number of successes = 5, number of trials = 12, p-value = 1
alternative hypothesis: true probability of success is not equal to 0.4
95 percent confidence interval:0.1517 0.7233
sample estimates:
probability of success 0.4167
同样可以用prop.test()
进行近似检验,只不过会发出警告
> prop.test(5,12,p=0.4,correct = T)1-sample proportions test with continuity correctiondata: 5 out of 12, null probability 0.4
X-squared = 0, df = 1, p-value = 1
alternative hypothesis: true p is not equal to 0.4
95 percent confidence interval:0.1818 0.6941
sample estimates:p
0.4167 Warning message:
In prop.test(5, 12, p = 0.4, correct = T) : Chi-squared近似算法有可能不准
5.6 两样本比率的检验
X,Y相互独立,总体容量较大 | n1,n2较大 | p1,p2近似服从正态分布 |
---|
假设检验问题 | 拒绝域 |
---|---|
H0:p1=p2,H1:p1≠p2 | { |Z| > z1-α/2 } |
H0:p1≤p2,H1:p1>p2 | { Z > z1-α } |
H0:p1≥p2,H1:p1<p2 | { Z < - z1-α } |
例:某高校随机抽取了102个男学生与135个女学生调查家中有无计算机。调查结果为23个男学生和25个女学生家中有计算机。问在α=0.05水平上,能否认为男、女学生家中拥有计算机的比率一致?
假设H0:p1=p2,H1:p1≠p2
> prop.test(c(23,25),c(102,135))2-sample test for equality of proportions with continuity correctiondata: c(23, 25) out of c(102, 135)
X-squared = 0.36, df = 1, p-value = 0.5
alternative hypothesis: two.sided
95 percent confidence interval:-0.07256 0.15317
sample estimates:
prop 1 prop 2
0.2255 0.1852
由于p-value = 0.5>0.05,故接受原假设,认为男、女学生家中拥有计算机的比率一致。
R语言学习笔记5_参数的假设检验相关推荐
- R语言学习笔记(五)假设检验及其R实现
文章目录 写在前面 概念回顾 关于χ2\chi^2χ2分布的一个重要定理 假设检验 概念 两类错误 功效与样本量 假设检验与置信区间的关系 单个正态总体均值的检验 推导过程 ppp值的有关结论 R语言 ...
- R语言学习笔记(1~3)
R语言学习笔记(1~3) 一.R语言介绍 x <- rnorm(5) 创建了一个名为x的向量对象,它包含5个来自标准正态分布的随机偏差. 1.1 注释 由符号#开头. #函数c()以向量的形式输 ...
- R语言学习笔记——入门篇:第一章-R语言介绍
R语言 R语言学习笔记--入门篇:第一章-R语言介绍 文章目录 R语言 一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点 二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...
- R语言学习笔记——高级篇:第十四章-主成分分析和因子分析
R语言 R语言学习笔记--高级篇:第十四章-主成分分析和因子分析 文章目录 R语言 前言 一.R中的主成分和因子分析 二.主成分分析 2.1.判断主成分的个数 2.2.提取主成分 2.3.主成分旋转 ...
- R语言学习笔记——入门篇:第三章-图形初阶
R语言 R语言学习笔记--入门篇:第三章-图形初阶 文章目录 R语言 一.使用图形 1.1.基础绘图函数:plot( ) 1.2.图形控制函数:dev( ) 补充--直方图函数:hist( ) 补充- ...
- R语言学习笔记 06 岭回归、lasso回归
R语言学习笔记 文章目录 R语言学习笔记 比较lm.ridge和glmnet函数 画岭迹图 图6-4 <统计学习导论 基于R语言的应用>P182 图6-6<统计学习导论 基于R语言的 ...
- r语言c函数怎么用,R语言学习笔记——C#中如何使用R语言setwd()函数
在R语言编译器中,设置当前工作文件夹可以用setwd()函数. > setwd("e://桌面//") > setwd("e:\桌面\") > ...
- R语言学习笔记 07 Probit、Logistic回归
R语言学习笔记 文章目录 R语言学习笔记 probit回归 factor()和as.factor() relevel() 案例11.4复刻 glm函数 整理变量 回归:Logistic和Probit- ...
- R语言学习笔记(八)--读写文件与网络爬虫
R语言学习笔记(八) 1 工作路径 2 保存R对象 3 Scan函数 3-1 从控制台读取数据 3-2 从txt文件读取数据 3-3 从url读取数据 4 按行读写文本文件 5 读取文本文件(txt. ...
- R语言学习笔记(三)多元数据的数据特征、相关分析与图形表示
文章目录 写在前面 独立性检验 χ2\chi^2χ2独立性检验 Fisher独立性检验 Cochran-Mantel-Haenszel χ2\chi^2χ2独立性检验 相关性分析 相关性检验 相关性检 ...
最新文章
- 关于STL中的map和hash_map
- java web前端模版,以Eclipse替核心搭建JAVA WEB开发环境(三)-模板项目Archetype
- linux c之孤儿进程与僵尸进程[总结]
- 搭建测试环境_当面试时被问到“搭建过测试环境吗”, 身为小白要怎么回答?...
- PAT甲级 1017 Queueing at Bank
- jdbc 连接 mysql 时的中文乱码问题
- 手机电脑同屏_把手游变成端游的同屏神器,就是这款Onebit“X9”了!
- Maven的dependencies与dependencyManagement用法区别
- 磁测仪高斯计与特斯拉计、磁通计的区别
- 支付设计白皮书:支付系统的概念与中国互联网支付清算体系
- mysql创建索引视图_mysql中创建视图、索引
- 硬件开发笔记(三):硬件开发基本流程,制作一个USB转RS232的模块(二):设计原理图库
- addClass添加类名称
- (附源码)springboot物联网智能管理平台 毕业设计 2111120
- Google体系地图纠偏算法
- spring用到的设计模式
- python简笔画程序_用python设计程序输生日判断星座,及星座简笔画。
- 【python】13位时间戳转成正常格式的时间
- ST算法 - RMQ(区间最值问题)—— 倍增
- 企业如何搭建管理驾驶舱 | 推荐收藏
热门文章
- 新型智慧城市投融资经验分享
- 2020 CCPC 威海(赛后重现)
- 计算机专业的书普遍都这么贵,你们都是怎么获取资源的?---给你们推荐一些编程电子书籍下载网站
- linux 下载ftp 命令,在Linux命令行中安装及使用FTP客户端的方法
- LCN分布式事务(Java)
- 网页导出pdf不完整_又一种pdf文献全文一键免费翻译的方法
- 微信小程序云开发之简单两步实现集成赞赏加群弹窗功能
- 这是一个赞赏码(附赞赏码生成方法)
- 华为u8500开启log方法
- 解决 dyld: Library not loaded:Reason: image not found