假设

  • 真实比例为 pp,取值范围为 0∼10\sim 1,
  • 观测到的比例(如抽样)的比例为 p^\hat p(在统计理论中通常使用“帽子”也标志某数据的估值)
  • 边际误差为 ϵ\epsilon

所要求解的问题是:真实的比例 pp 落在置信区间 [p^−ϵ,p^+ϵ]\left[\hat p-\epsilon, \hat p+\epsilon\right] 的概率。

落在置信区间的标准通用采用 95%,这一数字被称为置信水平,表达我们对 pp 成功落入区间的信息程度。

区间公式通过以下求解:

p=p^±1.96×p^(1−p^)n−−−−−−−−√=p^±ϵ

p=\hat p\pm 1.96\times \sqrt{\frac{\hat p\left(1-\hat p\right)}{n}}=\hat p\pm \epsilon

  • 也可根据边际误差推测样本容量
  • nn 表示样本中的个体数量
  • 公式表示未知的真实比例 pp 有 95% 的概率落入 p^±ϵ\hat p\pm \epsilon,也就是说,每 20 个这样的区间,平均有 19 个区间中有 pp,只有 1 个不在区间中。

值得注意的是,边际误差 ϵ\epsilon 会随着样本容量的增加而减小,因此,访问的民众越多,民调就越可信。

95%⇒1.9699%⇒2.58

95\%\Rightarrow 1.96\\ 99\%\Rightarrow 2.58

来看一个具体的示例,对 1000 人进行民调,有 400 人支持总统。p^=0.4\hat p=0.4,n=1000n=1000,将其带入公式,置信区间就变为:

p=p^±1.96p^(1−p^)n−−−−−−−−√=0.4±0.03

p=\hat p\pm 1.96\sqrt{\frac{\hat p\left(1-\hat p\right)}{n}}=0.4\pm0.03

许多民调的边际误差都保持在 3% 左右,这并非巧合。置信水平为 95%,则系数为 1.96,如果观测比例 p^\hat p 与 0.5 接近,比如在 0.3 和 0.7 之间,p^(1−p^)\hat p\left(1-\hat p\right)的平方根大约为 0.5。而 1.96 约等于 2,两者相乘的结果大概是 1,边际误差就约为 1n√\frac1{\sqrt {n}}:

ϵ=1n−−√

\epsilon=\frac1{\sqrt n}
假设样本容量约为典型的 1000,边际误差就是 3%(11000√≈0.03\frac1{\sqrt{1000}}\approx 0.03).

1. 具有欺骗性质的统计数据

如果在一项民调中,50.5%的人表达了对加入欧盟的支持。也即为了得出此结论,必须将边际误差降到 0.5%(下界不会跌破 50%),导致置信水平只有 25%.

这里的样本人数仍为 1000,则置信水平在 0.25 时的 Z 为 0.32,则其边际误差为:

0.32⋅0.51000−−−−√≈0.005

0.32\cdot \frac{0.5}{\sqrt {1000}}\approx 0.005

另一个没有代表性的样本例子是假设你在你家附近做晚间散步,发现你看到的 20 人里有 14 个人都在遛狗,可以得出 70% 的邻居都养狗了吗?

1.96×0.7×0.320−−−−−−−−√≈0.2008

1.96\times \sqrt{\frac{0.7\times 0.3}{20}}\approx 0.2008

再来看一个典型的案例,2005 年秋天,媒体报道小布什总统的支持率首次跌破 40%(好像这个 40% 是一个十分精确的数值一样)。从某种程度上是毫无意义的声明。虽然(抽样调查的)事实可能是前次民调显示支持率为 41%,下次结果则为 39%,这些数字的边际误差都是 3%,若建立其相关的置信区间,在部分区间上数值是重复的。没有边际误差的 41% 和 39% 不能说明一切,只有被我们表述为区间 [38, 44](41%),[36, 42](39%)时才有意义。不仅如此,我们也不能排除两次民调间支持率其实是存在上升的情况。

只有当差异大到完全超过边际误差(区间没有重叠)时,才能被称为具有统计显著性

置信区间、置信水平、边际误差相关推荐

  1. pass样本量_年度质量回顾-样本量

    上一篇文章讨论了μ±3σ统计分析的限制前提:正态分布.本篇将继续讨论限制μ±3σ统计分析方法的另一个因素:样本量. 1 案例 某原料药中间体含量(%,限度96.5-103.5)统计数据如下: 中间体含 ...

  2. 单个正态总体均值的区间估计_统计概率之误差思维:置信区间

    置信区间 在概率统计中"误差"是一个非常重要的概念,如何理解误差呢?其实误差就是我们在进行统计测量活动中哪些偶然因素干扰从而造成测量的数据并不是真实精确的数据,往往会存在或多或少的 ...

  3. 通俗易懂告诉你:何为95%置信区间?

    CDA数据分析师 出品 置信区间的概念是由原籍波兰的美国统计学家耶日·奈曼提出的. 简单理解,比如从北京到张家界旅游5天,你恐怕不能准确说出要花多少钱,但你可以给出一个范围,比如10000-13000 ...

  4. 置信区间构建---商务与经济统计+深入浅出统计学

    目录 置信区间: 置信区间求解步骤: 置信区间求解: 总体均值的置信区间: 总体的标准差已知: 总体的标准差未知: 样本容量的确定 总体比率的置信区间 样本容量的确定 置信区间: 通过点估计量加减一个 ...

  5. 区间估计——置信区间

    可参考上一篇博文 抽样与抽样分布--中心极限定理.点估计 1. 区间估计 1.1 区间估计 总体参数估计的一个区间,确信该区间将参数值纳入其中. 区间估计的形式:点估计±边际误差 1.2 置信区间 区 ...

  6. python 置信区间

    置信区间是指由 样本统计量 所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度"用"置信区 ...

  7. python 散点图 置信区间_python 置信区间

    置信区间是指由 样本统计量 所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度"用"置信区 ...

  8. python 散点图 置信区间_python计算置信区间

    python 置信区间 置信区间是指由 样本统计量 所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度&quo ...

  9. 应用统计学与R语言实现学习笔记(五)——参数估计

    Chapter 5 Estimation 本篇是第五章,内容是参数估计. Chapter 5 Estimation 1.参数估计的一般问题 2.区间估计 Confidence Intervals 3. ...

  10. 数据分析师必掌握的统计学知识!

    众所周知,统计学是数据分析的基石.学了统计学,你会发现很多时候的分析并不那么准确,比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的.而统计学可以帮助我们以更科学的角度看待数据,逐步接近 ...

最新文章

  1. 【杂谈】关于批量采购与教材试点深度学习之图像识别,模型设计,人脸图像处理书籍相关问题...
  2. 1.Jenkins 在windows下的安装与配置
  3. 位置传感器matlab,永磁同步电机无位置传感器控制matlab仿真【续贴二】
  4. 这就是你在妈妈肚子里尿尿的样子 | 今日最佳
  5. socket 编程篇六之IPO多路复用-select poll epoll
  6. python web开发 HTML基础
  7. 家卫士扫地机器人好吗_扫地机器人哪个牌子好?市场最全智能扫地机器人品牌解析_扫地机器人...
  8. MySQL:JDBC基础及连接数据库的方式
  9. 【网络安全】加解密算法最详解
  10. React Native入门(十四)之动画(1)Animated详解
  11. 心脏线绘制python_心脏线怎么画?
  12. [wp7软件]相机 画图 截屏 photo 集合 软件(一)
  13. [量化-034]金融哲学-道德经解读-005-“道”是什么
  14. JavaScript之赛车游戏
  15. 基于神经网络的图像分类,图像识别神经网络模型
  16. C语言.h文件的作用
  17. 电动车电池48V12AH是什么意思
  18. 致远OA破解思路,致远协同办公OA破解思路
  19. ECharts饼状图lable显示Value所占百分比
  20. discord怎么创建账号_如何邀请人们加入Discord服务器(以及创建邀请链接)

热门文章

  1. 架构师如何练习演讲和表达能力
  2. iOS weak关键字实现原理
  3. 使用Vue+DataV+ECharts打造新冠肺炎疫情数据大屏(可动态刷新)
  4. DSP内核结构中的 D L S M
  5. jpg转bmp c语言 linux,C语言实现BMP转换JPG的方法
  6. springboot整合数据库
  7. 【EfficientNet】EfficientNet网络结构及代码详解
  8. 续费Enom域名的三种办法
  9. 解决IISASP调用XmlHTTP出现msxml3.dll (0x80070005) 拒绝访问的错误
  10. 1.Linux系统编程-进程