置信区间、置信水平、边际误差

假设

真实比例为 pp，取值范围为 0∼10\sim 1，
观测到的比例（如抽样）的比例为 p^\hat p（在统计理论中通常使用“帽子”也标志某数据的估值）
边际误差为 ϵ\epsilon

所要求解的问题是：真实的比例 pp 落在置信区间 [p^−ϵ,p^+ϵ]\left[\hat p-\epsilon, \hat p+\epsilon\right] 的概率。

落在置信区间的标准通用采用 95%，这一数字被称为置信水平，表达我们对 pp 成功落入区间的信息程度。

区间公式通过以下求解：

p=p^±1.96×p^(1−p^)n−−−−−−−−√=p^±ϵ

p=\hat p\pm 1.96\times \sqrt{\frac{\hat p\left(1-\hat p\right)}{n}}=\hat p\pm \epsilon

也可根据边际误差推测样本容量
nn 表示样本中的个体数量
公式表示未知的真实比例 pp 有 95% 的概率落入 p^±ϵ\hat p\pm \epsilon，也就是说，每 20 个这样的区间，平均有 19 个区间中有 pp，只有 1 个不在区间中。

值得注意的是，边际误差 ϵ\epsilon 会随着样本容量的增加而减小，因此，访问的民众越多，民调就越可信。

95%⇒1.9699%⇒2.58

95\%\Rightarrow 1.96\\ 99\%\Rightarrow 2.58

来看一个具体的示例，对 1000 人进行民调，有 400 人支持总统。p^=0.4\hat p=0.4，n=1000n=1000，将其带入公式，置信区间就变为：

p=p^±1.96p^(1−p^)n−−−−−−−−√=0.4±0.03

p=\hat p\pm 1.96\sqrt{\frac{\hat p\left(1-\hat p\right)}{n}}=0.4\pm0.03

许多民调的边际误差都保持在 3% 左右，这并非巧合。置信水平为 95%，则系数为 1.96，如果观测比例 p^\hat p 与 0.5 接近，比如在 0.3 和 0.7 之间，p^(1−p^)\hat p\left(1-\hat p\right)的平方根大约为 0.5。而 1.96 约等于 2，两者相乘的结果大概是 1，边际误差就约为 1n√\frac1{\sqrt {n}}：

ϵ=1n−−√

\epsilon=\frac1{\sqrt n}
假设样本容量约为典型的 1000，边际误差就是 3%（11000√≈0.03\frac1{\sqrt{1000}}\approx 0.03）.

1. 具有欺骗性质的统计数据

如果在一项民调中，50.5%的人表达了对加入欧盟的支持。也即为了得出此结论，必须将边际误差降到 0.5%（下界不会跌破 50%），导致置信水平只有 25%.

这里的样本人数仍为 1000，则置信水平在 0.25 时的 Z 为 0.32，则其边际误差为：

0.32⋅0.51000−−−−√≈0.005

0.32\cdot \frac{0.5}{\sqrt {1000}}\approx 0.005

另一个没有代表性的样本例子是假设你在你家附近做晚间散步，发现你看到的 20 人里有 14 个人都在遛狗，可以得出 70% 的邻居都养狗了吗？

1.96×0.7×0.320−−−−−−−−√≈0.2008

1.96\times \sqrt{\frac{0.7\times 0.3}{20}}\approx 0.2008

再来看一个典型的案例，2005 年秋天，媒体报道小布什总统的支持率首次跌破 40%（好像这个 40% 是一个十分精确的数值一样）。从某种程度上是毫无意义的声明。虽然（抽样调查的）事实可能是前次民调显示支持率为 41%，下次结果则为 39%，这些数字的边际误差都是 3%，若建立其相关的置信区间，在部分区间上数值是重复的。没有边际误差的 41% 和 39% 不能说明一切，只有被我们表述为区间 [38, 44]（41%），[36, 42]（39%）时才有意义。不仅如此，我们也不能排除两次民调间支持率其实是存在上升的情况。

只有当差异大到完全超过边际误差（区间没有重叠）时，才能被称为具有统计显著性。

置信区间、置信水平、边际误差相关推荐

pass样本量_年度质量回顾-样本量
上一篇文章讨论了μ±3σ统计分析的限制前提:正态分布.本篇将继续讨论限制μ±3σ统计分析方法的另一个因素:样本量. 1 案例某原料药中间体含量(%,限度96.5-103.5)统计数据如下: 中间体含 ...
单个正态总体均值的区间估计_统计概率之误差思维：置信区间
置信区间在概率统计中"误差"是一个非常重要的概念,如何理解误差呢?其实误差就是我们在进行统计测量活动中哪些偶然因素干扰从而造成测量的数据并不是真实精确的数据,往往会存在或多或少的 ...
通俗易懂告诉你：何为95%置信区间？
CDA数据分析师出品置信区间的概念是由原籍波兰的美国统计学家耶日·奈曼提出的. 简单理解,比如从北京到张家界旅游5天,你恐怕不能准确说出要花多少钱,但你可以给出一个范围,比如10000-13000 ...
置信区间构建---商务与经济统计+深入浅出统计学
目录置信区间: 置信区间求解步骤: 置信区间求解: 总体均值的置信区间: 总体的标准差已知: 总体的标准差未知: 样本容量的确定总体比率的置信区间样本容量的确定置信区间: 通过点估计量加减一个 ...
区间估计——置信区间
可参考上一篇博文抽样与抽样分布--中心极限定理.点估计 1. 区间估计 1.1 区间估计总体参数估计的一个区间,确信该区间将参数值纳入其中. 区间估计的形式:点估计±边际误差 1.2 置信区间区 ...
python 置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度"用"置信区 ...
python 散点图置信区间_python 置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度"用"置信区 ...
python 散点图置信区间_python计算置信区间
python 置信区间置信区间是指由样本统计量所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度&quo ...
应用统计学与R语言实现学习笔记（五）——参数估计
Chapter 5 Estimation 本篇是第五章,内容是参数估计. Chapter 5 Estimation 1.参数估计的一般问题 2.区间估计 Confidence Intervals 3. ...
数据分析师必掌握的统计学知识！
众所周知,统计学是数据分析的基石.学了统计学,你会发现很多时候的分析并不那么准确,比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的.而统计学可以帮助我们以更科学的角度看待数据,逐步接近 ...

置信区间、置信水平、边际误差

1. 具有欺骗性质的统计数据

置信区间、置信水平、边际误差相关推荐

最新文章

热门文章