1、中心极限定理 (Central Limit Theorem)

1）中心极限定理（就是描述样本均值的分布情况）

随着样本容量(Sample size) n趋于无穷，

样本均值(Sampling Distribution of the Sample Mean)的分布越接近正态分布
样本均值的标准差(Standard Error of the Mean) 变小：偏度(Skew)更接近于0，峰度(Kurtosis)也更接近于0
这里样本均值指的是选取多个样本，每个样本可以求出一个样本均值，多个样本均值的分布符合正态分布

大数定律 Law of Large Number：随着样本容量n越大，样本均值越接近总体均值
除了样本均值，样本众数、样本和，样本极差等统计量也适用
一般n>30即可看作样本均值为正态分布

2）样本均值的抽样分布
样本均值的标准差(Standard Error of the Mean)
σx‾=σn\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}σx=nσ
偏度 (Skew)

峰度(Kurtosis)

3）利用标准正态分布求概率的方法

确定分布（均值μ\muμ和标准差σ\sigmaσ）与范围
标准化，使其均值为0，标准差为1，得出标准正态变量Z，Z∼N(0,1)Z\sim N\left(0,1\right)Z∼N(0,1)
查概率表

标准化是为了使其对应查找标准正态分布概率表

4）实例
（1）男性在户外活动时平均喝2L水（标准差是0.7L）。50人全天户外旅行，准备110L水．这些水不够的概率是多少？

确定分布

50个人看作样本，样本容量 n=50n=50n=50
50人准备110L水，即平均喝水 x‾=110/50＝2.2L\overline{x}=110/50＝2.2Lx=110/50＝2.2L，均值分布服从正态分布
求水不够的概率，等价于求平均喝水超过2.2L的概率P(x‾>2.2)=?P\left(\overline{x}>2.2\right)=?P(x>2.2)=?
样本均值抽样分布的标准差σx‾=σn≈0.099\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}\approx0.099σx=nσ≈0.099

标准化
z=x‾−μσ=2.2−20.099≈2.02z=\frac{\overline{x}-\mu}{\sigma}=\frac{2.2-2}{0.099}\approx 2.02z=σx−μ=0.0992.2−2≈2.02
查概率表
查表可知P(Z>2.02)=1−0.9783=0.0217P\left(Z>2.02\right)=1-0.9783=0.0217P(Z>2.02)=1−0.9783=0.0217

2、参数估计：点估计

x‾：样本均值μ:总体均值μ^:总体均值的点估计\overline{x}：样本均值\\ \mu:总体均值\\\hat\mu:总体均值的点估计x：样本均值μ:总体均值μ^:总体均值的点估计
均值的点估计：:μ^=x‾\hat\mu=\overline{x}μ^=x

S2:样本方差σ2:总体方差σ^2:总体方差的点估计S^2:样本方差\\\sigma^2:总体方差\\\hat\sigma^2:总体方差的点估计S2:样本方差σ2:总体方差σ^2:总体方差的点估计
方差的点估计（用样本数据估计总体方差）：σ^2=S2=∑(x−x‾)2n−1\hat\sigma^2=S^2=\frac{\sum_({x-\overline{x}})^2}{n-1}σ^2=S2=n−1∑(x−x)2

2) 区间估计
其实就是求置信区间见下

3、参数估计：区间估计——求置信区间

1）置信区间是什么？
在样本估计总体均值时，我们需要知道估计的准确度，因此选定一个区间[a,b]，目的是让这个区间包含总体均值，这个区间叫做置信区间。

对于这个区间有多大概率包含总体均值，这个概率称为置信水平，是我们对这个范围的可信程度。。置信水平是根据实际问题自己确定的，一般设定为95%即两个标准差。

2）怎么计算置信区间？（结合例子更具体的讲解可以看深入浅出统计学）
解题的时候要区分清楚哪些是样本统计量（已知），哪些是总体统计量（未知，通过点估计得出）

选择总体统计量
即确定你要求的那个总体均值 μ\muμ
求样本均值的抽样分布
1)计算样本均值 x‾\overline{x}x
2)计算样本均值标准差 σx‾=σn≈Sn\sigma_{\overline{x}}=\frac{\sigma}{\sqrt n}\approx \frac{S}{\sqrt n}σx=nσ≈nS
（由于事先我们并不知道总体的标准差。因此要用样本方差作为总体方差的估计（点估计），需注意是会跟随样本的变化而变化。）　
3)得出样本均值的分布：X‾∼N(x‾,σx‾)\overline{X}\sim N\left(\overline{x},\sigma_{\overline{x}}\right)X∼N(x,σx)，因为这里就是通过样本均值估计总体均值的区间，所以把x‾\overline{x}x换成μ\muμ，X‾∼N(μ,σx‾)\overline{X}\sim N\left(\mu,\sigma_{\overline{x}}\right)X∼N(μ,σx)
确定置信水平
求出置信上下限
1)当样本容量较大（>30）时，查找z表格；
a. 标准化
即把X‾∼N(μ,σx‾)\overline{X}\sim N\left(\mu,\sigma_{\overline{x}}\right)X∼N(μ,σx)转换成标准正态分布Z‾∼N(0,1)\overline{Z}\sim N\left(0,1\right)Z∼N(0,1)，Z就是标准化后的X‾\overline{X}X Z=x‾−μσx‾Z=\frac{\overline{x}-\mu}{\sigma_{\overline{x}}}Z=σxx−μ
b. 用μ\muμ改写不等式
（以置信水平为95%为例）
P(−1.96<Z<1.96)=0.95P(−1.96<x‾−μσx‾<1.96)=0.95P(-1.96<Z<1.96)=0.95\\P(-1.96<\frac{\overline{x}-\mu}{\sigma_{\overline{x}}}<1.96)=0.95P(−1.96<Z<1.96)=0.95P(−1.96<σxx−μ<1.96)=0.95
其中x‾、σx‾\overline{x}、\sigma_{\overline{x}}x、σx已知，带入求出a<μ<ba<\mu<ba<μ<b即可得出置信区间(a,b)

置信区间简便算法，用下面的表可以取代第4步，直接带入求出

2)当样本容量较小（<30）时，为t分布，确定自由度(degrees of freedom) t=n-1，查找t分布表（跟正态分布的计算差别只在查表，其他都相同）

3）实例
(1) 某地区教学区获得一批技术拨款，用于在教师中安排4台一组的计算机．该区总共有6250名教师，随机抽取250名，并且问他们是否认为计算机是教师必备的教学工具．抽取的教师中，有142名认为计算机是教学必备的工具．

问题1：
计算一个99％置信区间，其中教师认为计算机是必备的教学工具．

定义：
1表示计算机被认为是必备工具，占比为p，
0表示计算机被认为不是必备工具，占比为q=1-p．

z表格的值应该为0.99/2+0.5＝0.995
对应2.58个标准差处
0.568±2.58×0.031=0.568±0.080.568\pm2.58\times0.031 = 0.568\pm0.080.568±2.58×0.031=0.568±0.08
即 0.488∼0.648=48.8%∼64.8%0.488\sim0.648=48.8\%\sim64.8\%0.488∼0.648=48.8%∼64.8%
有99%的几率，48.8%~64.8%的老师认为计算机是必备的

问题2：
保持99％置信水平的前提下，如何缩小置信区间？

抽取更大的样本.

(2) 小样本容量置信区间
7个患者在服用新药3个月后测量血压．其血压上升值分别为1.5, 2.9, 0.9, 3.9, 3.2, 2.1, 1.9．为总体中所有病人的血压升高真正期望值建立一个95％的置信区间。

这里样本容量太小了，不能认为其样本均值为正态分布，不能使用中心极限理论。可以认为是t分布，查t分布表

即 1.38∼3.31.38\sim3.31.38∼3.3

参考资料：
可汗学院统计学：https://www.bilibili.com/video/av7199273/?p=73
简客：https://jentchang.github.io/contents/math/statistical.html
《深入浅出统计学》

统计学3：中心极限定理、参数估计：点估计和区间估计（置信区间）相关推荐

[统计学理论基础] 中心极限定理与大数定律的区别
一. 中心极限定理下图形象的说明了中心极限定理当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的 ...
5.参数估计——点估计与区间估计概念，置信区间的公式求法与Python实现求出结果
1.点估计什么是点估计设总体X的分布形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题注意: 点估计的问题就是要构造一个适当的统计量(估计 ...
【统计学】中心极限定理
假设有1000名学生(总体),平均身高是176cm.现在对该总体进行随机抽样,一次抽50人,共抽30次.对于每一次抽样,都能求得样本(50人)的平均身高,最终会获得30个样本的平均身高. 中心极限定理 ...
区间估计——置信区间
可参考上一篇博文抽样与抽样分布--中心极限定理.点估计 1. 区间估计 1.1 区间估计总体参数估计的一个区间,确信该区间将参数值纳入其中. 区间估计的形式:点估计±边际误差 1.2 置信区间区 ...
统计知识基础（二）点估计、区间估计、大数定律及中心极限定理
点估计点估计指直接以样本统计量代替总体参数的一种统计量估计方法,例如:用样本均值估计未知的总体均值.举一个通俗点的例子就是: 假设老师想要知道整个年级的学生平均身高,但由于整个年级人数太多,想要每 ...
考研：研究生考试(七天学完)之《概率与统计》研究生学霸重点知识点总结之目录(随机事件、条件概率与独立性、随机变量的函数及其分布(数字特征)、统计学、统计量与抽样分布、点估计、区间估计、假设检验
考研:研究生考试(七天学完)之<概率与统计>研究生学霸重点知识点总结之目录(随机事件.条件概率与独立性.随机变量的函数及其分布(数字特征).统计学.统计量与抽样分布.点估计.区间估计.假设 ...
【定量分析、量化金融与统计学】统计推断基础（2）---样本均值分布、中心极限定理、正态分布
目录一.前言二.样本均值分布三.中心极限定理 *****中心极限定理 ***大数定理与中心极限定理有什么区别? 四.正态(概率)分布一.前言我发现很多人学了很久的统计学,很多总是概念混淆,那 ...
[数理知识]参数估计：点估计、区间估计及置信区间
文章目录 Preliminaries 数学期望.方差与协方差常用概率分布及其期望.方差参数估计问题一.大数定律及中心极限定理 1 切比雪夫不等式(Chebyshev) 2 大数定律(Law of ...
【定量分析、量化金融与统计学】统计推断基础（3）---点估计、区间估计
一.前言我发现很多人学了很久的统计学,仍然搞不清楚什么是点估计.区间估计,总是概念混淆,那今天我们来盘一盘统计推断基础的点估计.区间估计.这个系列统计推断基础5部分分别是: 总体.样本.标准差.标准 ...

统计学3：中心极限定理、参数估计：点估计和区间估计（置信区间）

1、中心极限定理 (Central Limit Theorem)

2、参数估计：点估计

3、参数估计：区间估计——求置信区间

统计学3：中心极限定理、参数估计：点估计和区间估计（置信区间）相关推荐

最新文章

热门文章