Testing for Means

1.R语言的统计分布函数
2.如何制定决策规则
- 2.1假设检验与置信区间的关系
- 2.2假设检验的步骤
3.独立总体&相关总体
- 3.1两个平均数之间的差值
4.检验方法
- 4.1 z检验
- 4.2 t检验
- 4.3 Separate-Variance t检验
- 4.4 Pooled-Variance t检验
- 4.5 Paired Difference t检验
- 4.6 paired t-test 与 two-sample t-test
- 4.7 双样本T检验

1.R语言的统计分布函数

在R中，有4个与统计分布有关的函数。以X ~ B(n, p)为例。

rbinom(size, n, prob)从X随机生成观察值。
pbinom(x, n, prob)计算p (x≤x) =?
qbinom(p, n, prob)计算p (X≤?)= p
dbinom(x, n, prob)计算P(x = x) =?

这些定义可以很容易地传输到其他分布。
唯一的例外是dnorm，它计算概率密度函数在x点的高度。

例子
已知X ∼ B(n = 20, p = 0.4) 和 Y ∼ N (µ = 20, σ^2= 16)是两个独立随机变量

若XY相互独立
Var(aX + bY) = Var(aX) + Var(bY) = a2Var(X) + b2Var(Y)
若XY不独立
Var(aX + bY) = Var(aX) + Var(bY) = a2Var(X) + b2Var(Y) + 2abCov(X, Y)
Cov(X, Y) = E(XY) – E(X)E(Y)

2.如何制定决策规则

临界值法
如果测试统计量落在拒绝区域，则拒绝H0
假定值的方法
如果p值< α(0.05)，则拒绝H0
置信区间方法
•如果空值(在H0中指定的值)位于置信区间之外，则拒绝H0

2.1假设检验与置信区间的关系

单侧检验 one-side test
当关键词有不得少于/低于的时候用左侧，比如灯泡的使用寿命不得少于/低于700小时时
当关键词有不得多于/高于的时候用右侧，比如次品率不得多于/高于5%时

若p值 > α,不拒绝 H0
若p值 < α, 拒绝 H0

双侧检验 two-side test
双侧检验指按分布两端计算显著性水平概率的检验，应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H1：μ1≠μ2。

若p值 > α/2, 不拒绝 H0
若p值 < α/2, 拒绝 H0

2.2假设检验的步骤

H:建立两个假设:H0和H1。
A:陈述检验的假设，并证明它们是否从样本中有效。
T:说明测试统计量，并说明测试统计量在H0状态下的抽样分布。
P:计算P值，P值表示在H0为真的情况下观察该样本(或更极端)的概率。
C:根据p值的大小对结论进行权衡

3.独立总体&相关总体

独立
1.不同的数据集：不相关/独立
2.使用两个样本平均数之间的差X1-X2

相关
1、相同的数据集：成对或匹配/重复措施(前/后)
2、使用每对观察项的差：di=x1i-x2i

3.1两个平均数之间的差值

总体均值，独立样本

σ1和σ2未知，假设相等
使用S1和S2来估计未知的σ1和σ2。使用separate-varience t检验
σ1和σ2未知，不假设相等
用Sp估计未知的σ。使用pooled-variance t检验。

目的:检验假设或对两个总体均值之间的差值形成一个置信区间
差值的估计值是X1 - X2

4.检验方法

4.1 z检验

n个观察数据来自一个未知的平均数µ和已知的方差σ2的总体
零假设：μ=μ0
Z = X ˉ − μ σ / n Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} Z=σ/n Xˉ−μ

4.2 t检验

σ未知
总体样本是正态分布的（或n>=30）
Z = X ˉ − μ S / n Z=\frac{\bar{X}-\mu}{S/\sqrt{n}} Z=S/n Xˉ−μ

4.3 Separate-Variance t检验

假设:

人群正态分布或两个样本大小至少为30。
种群方差是未知的，假定是不相等的。
样本是随机独立抽取的。

总体均值，独立样本
σ1和σ2未知，不假设相等

e.g.高纤维早餐谷物的膳食效应
尽管存在一些争议，科学家们普遍认为高纤维谷物可以降低患各种癌症的可能性。然而，一位科学家声称，早餐吃高纤维谷类食品的人午餐平均摄入的热量要比早餐不吃高纤维谷类食品的人少。如果这是真的，高纤维谷物制造商将能够宣称食用他们产品的另一个优势——潜在的减肥效果。
作为对这一说法的初步测试，研究人员随机挑选了30人，询问他们早餐和午餐经常吃什么。每个人被确定为食用或不食用高纤维早餐麦片的人，并测量和记录午餐摄入的千焦热量。这些数据列在下面。
在5%的显著性水平上，测试了科学家的说法，即早餐吃高纤维谷物的人比早餐不吃高纤维谷物的人午餐平均摄入的热量更少。

4.4 Pooled-Variance t检验

假设:

人群正态分布或两个样本大小至少为30
种群方差未知，但假设相等
样本是随机独立抽取的

总体均值，独立样本
σ1和σ2未知，假设相等

例2:台湾儿童多动症
2013年的一项研究使用韦氏智力量表(WISC-III)观察了兴奋剂对台湾患有注意缺陷多动障碍(ADHD)儿童神经认知表现的长期影响。
“在台湾，大约十年前就注意到ADHD的高患病率，但目前仍很少有研究比较ADHD儿童和健康儿童的神经认知功能。”
“由于采样人群的性质、使用的诊断标准、文化差异和方法的局限性，多动症在不同文化中的流行程度各不相同。台湾的患病率估计约为8.4-11.7%;在澳大利亚2.4%;在日本是4%。”

4.5 Paired Difference t检验

两个相关总体的检验方法

成对或匹配的样本
重复措施(之前/之后)
使用配对值之间的差异:di=x1i-x2i

消除被试之间的差异
假设:

差异总体正常或n≥30，且概率d未知
差异是从差异总体中随机选择。

假设第i个配对差异是di，则di=x1i-x2i
搭配不同的点估计总体均值μd是

统计基础（五）假设检验中的检验方法相关推荐

数理统计复习笔记五——假设检验之显著性检验
一.基本概念在统计中,我们把需要用样本去推断"正确"与否的命题称为一个假设.当然,假设是可以关于参数的,也可以是关于分布的. 通过样本对一个假设作出"对"或& ...
如何理解假设检验中的假设设计？
如何理解假设检验中的假设设计? 文章目录如何理解假设检验中的假设设计? 举例例1 假设检验中的两种错误 P 值的意义 P 值的计算拒绝还是非拒绝的条件先算T值 **适用于两尾备择假设的规则** ...
假设检验中的P值与显著性水平的联系
欢迎关注本人: 推荐系统公众号:Tiany_RecoSystem 知乎主页:https://www.zhihu.com/people/shen-xiao-ming-77 假设检验是推断统计中的一项重要 ...
假设检验中的P 值 (P value)
假设检验是推断统计中的一项重要内容. 用SAS.SPSS等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value,Probability,Pr),P 值是进行检验决策的另一个依据. P ...
maple 假设_Maple在假设检验中的应用.pdf
您所在位置:网站首页 > 海量文档 &nbsp>&nbsp高等教育&nbsp>&nbsp统计学 Maple在假设检验中的应用.pdf3页本文档一共被 ...
UA MATH564 概率论VI 数理统计基础3 卡方分布中
UA MATH564 概率论VI 数理统计基础3 卡方分布中卡方分布的基本性质上一讲介绍了卡方分布的定义:假设X1,⋯,XnX_1,\cdots,X_nX1,⋯,Xn互相独立,并且Xi∼N(a ...
阅读react-redux源码(五) - connectAdvanced中store改变的事件转发、ref的处理和pure模式的处理
阅读react-redux源码 - 零阅读react-redux源码 - 一阅读react-redux源码(二) - createConnect.match函数的实现阅读react-redux源 ...
a73*2+a53*2指的是什么_考验你脑细胞的时候到了！杨花落尽子规啼，闻道龙标过五溪中的子规指的是什么？|考验|脑细胞-360GAME...
川北在线核心提示:原标题:考验你脑细胞的时候到了!杨花落尽子规啼,闻道龙标过五溪中的子规指的是什么? 杨花落尽子规啼,闻道龙标过五溪中的子规指的是什么?以上是蚂蚁庄园小课堂11月5日的问题,答对可以领 ...
c++一维数组找出五个数中的最大和最小值
//代码段: #include<iostream> using namespace std; void main() { //c++一维数组五个数中找最大值和最小值int arr[5]={ ...

统计基础（五）假设检验中的检验方法