如何理解95%置信区间
如何正确理解95%置信区间
科技论文里经常会出现【95%CI】的评价,这个评价到底有什么意义,他和68-95-99.7法则的关系是什么,可能很多人没有清楚的理解,包括之前写论文评价95%CI的自己。
目的
理解【95%CI置信区间】的含义,以及他和 【68-95-99.7%法则 】的关系。
什么是置信区间
首先明白置信区间的定义是什么:
在统计学中,一个概率样本的置信区间(英语:Confidence interval,CI),是对产生这个样本的总体的参数分布(Parametric Distribution)中的某一个未知参数值,以区间形式给出的估计。相对于点估计(Point Estimation)用一个样本统计量来估计参数值,置信区间还蕴含了估计的精确度的信息。 1
Keyword
- 置信区间并非评价该组样本的发生概率
- 置信区间是通过概率样本来推测 未知的总体参数
- 置信区间给出的是对于总体参数的 区间 估计,而非 点 估计
置信区间计算例
这里假设有10个人的体重作为总体参数,选5个人作为一组抽样标本,来评价他们的平均值。10个人的体重分别如下表
路人1 | 路人2 | 路人3 | 路人4 | 路人5 | 路人6 | 路人7 | 路人8 | 路人9 | 路人10 |
---|---|---|---|---|---|---|---|---|---|
50.4 | 54.6 | 55.2 | 58.4 | 64.3 | 65.5 | 69.1 | 71.4 | 74.5 | 88.3 |
我们可以知道总体参数的平均值为65.17
从这10个人的总体参数里,取出5个人作为抽样标本并计算其平均值。
- 路人1~5作为标本1,其平均值为56.58.
- 路人3~7作为标本2,其平均值为62.5.
- 路人3,4,7,8,10作为标本3,其平均值为68.48.
总平均 | 标本1平均 | 标本2平均 | 标本3平均 |
---|---|---|---|
65.17 | 56.58 | 62.5 | 68.48 |
结果可以知道,任意一组标本跟总体平均都不一致。
我们不能用标本的 点推测 来推测总体数据的平均值。
当然,很多人会说这理所应当的,这也是总所周知的事实。
一组抽样标本,他的平均值并不能代表总体数据的平均值
换个思想,更简单的话就是:
当我们在实验室对10台复合钢做材料实验,能获得这一组强度数据,并进行数据整理的时候,得到的是这一组标本的数据。不能代表这个复合钢全体的数据,如何通过这组标本获得的数据,来推测复合钢的性质,这时我们可能就需要用 区间推测 来评价复合钢的强度。
这个时候我们就可以说,复合钢强度平均值是在这个 区间范围 以内,这个平均值不用点表示,而用 区间 来表示。
95%置信区间表示了什么
进入正题,论文里经常能看到的95%置信区间(95% Confidence Interval; 95%CI)到底代表了什么意思。
95%置信区间是通过标本数据平均值对总体平均值的区间推测指标
- 换句话说,95%置信区间是评价总体平均值的一个范围。我们进行100组实验,只有5组实验数据的平均值是落在这个范围之外的。
置信区间怎么求得的
知道了95%置信区间表示了什么意思之后,来看看置信区间是怎么通过计算获得的。要理解95%CI,首先我们得先理解标准误差(Standard Error; SE)。
标准误差SE和标准偏差SD很相似。
注意不要搞混淆,这里有说明他们的区别。
简单的说
标准误差SE=标准偏差SD/(n)标准误差SE=标准偏差SD/\sqrt (n)标准误差SE=标准偏差SD/(n)
这里的n代表实验体个数。
这里可以看出,实验体个数越多,SE就越小
举个简单的例子
假如想知道20岁的平均身高。
这个时候研究组A随机抽取了50个人获得了数据,研究组B随机抽取了1000个人获得了数据。
但是这两组数据测得了完全一样的数据:平均值为165cm,标准偏差为20。
我们如何评价研究组A和B的数据,能认为他们两组数据一模一样吗。
这个时候大家凭感觉也知道抽取1000个人的研究组B的可靠性比较高。
研究组名 | 样本数 | 平均值 | 标准偏差SD | 标准误差SE |
---|---|---|---|---|
研究组A | 50 | 165 | 20 | 20/(50)20/\sqrt(50)20/(50)=2.83 |
研究组B | 1000 | 165 | 20 | 20/(1000)20/\sqrt(1000)20/(1000)=0.63 |
从上面的数据我们可以看出 离散程度完全一样的两组数据中,样本数的多少所表达出的对数据的可靠程度也不一样。
这里我们可以得出重要的结论:
标准偏差代表了一组数据的离散程度,而标准误差代表了这个平均值的可靠程度。
通过标准误差来求得置信区间
通过上面的结论,我们知道了标准误差SE可以代表了平均值的可靠程度,意味着我们可以通过标准误差来推测总体数据的平均值。
理解了标准误差SE,95%CI也能很好的理解。
数据服从正太分布的时候,95%CI可以通过如下式子计算获得:
95%CI=1.96*SE
所以95%置信区间为:平均值±1.96SE
为什么是1.96的系数怎么计算,核心思想是跟【68-95-99.7法则】是一样的, 是通过对概率密度函数积分所获得。
首先,我们获得了总体数据里的一组样本,我们可以从中计算出其平均值。
假定有多个样本有分别不同的平均值,此时我们就可以得到总体数据对于平均值的分布。
当我们把样本的平均值,当作一组样本里的一个数据时。我们就可以用正太分布的性质来评价样本的平均值。也就是n组样本里大约有68%的平均值落在总体样本里的 平均值±SE 的范围里。95.5%的平均值落在 平均值±2SE 的范围里。
所以95%的置信区间为 平均值 μ\muμ ± 1.96SE
总结
- 标准偏差用来评价一组数据内的离散程度,可以通过【68-95-99.7法则】推测数据的分布范围
- 标准误差是评价一组样本平均值的可靠性,并通过它可以推测总体数据的平均值的可靠范围。
- 95%的置信区间意思为,假设做了100组实验,100组实验中有5组实验的平均值是不在置信区间的范围内。
- 95%置信区间的计算式为: 95%CI=μ\muμ ±1.96*SE
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
en.wikipedia.org/wiki/Confidence_interval ↩︎
如何理解95%置信区间相关推荐
- 95%置信区间的含义_怎样全面理解95%置信区间
前文我们解释了正态分布和抽样分布,今天终于要开始讲解置信区间了.有不少小伙伴在后台留言希望多讲讲假设检验和置信区间的内容,在此对同学们的关注表示感谢,同时,我们也会尽力加快推文速度. 首先,简单回顾一 ...
- 95%置信区间的含义_如何理解 95% 置信区间?
置信区间,就是一种区间估计. 先来看看什么是点估计,什么是区间估计. 1 点估计与区间估计 以前很流行一种刮刮卡: 游戏规则是(假设只有一个大奖):大奖事先就固定好了,一定印在某一张刮刮卡上 买了刮刮 ...
- 95%置信区间计算-理解
机器学习中做多次试验后,需要计算指标的95%置信区间. 假设做了10次试验,计算得出的某指标分别为{x1,-,x10} 其均值为 μ = ( x 1 + . . . + x 10 ) / 10 \mu ...
- 一文快速搞懂对95%置信区间的理解
一文快速搞懂对95%置信区间的理解 综合知乎上各大神的解答和网络资料得到本文对95%置信区间的理解 先给出结论 最常出现的对置信区间的错误理解: 在95%置信区间内,有95%的概率包括真实参数 (错 ...
- 95%置信区间学习笔记
1. 基本概念的理解 95%置信区间表示的意义为该区间能代表总体均值的概率为95%,而并非平均值的真值落在该区间的概率为95%(总体或者样本均值的真值是不会随外界条件发生变化的) 2.置信区间的计算公 ...
- 一文看懂95%置信区间
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自 | CSDN博客 作者 | bitcarmanlee 编辑 ...
- 通俗易懂告诉你:何为95%置信区间?
CDA数据分析师 出品 置信区间的概念是由原籍波兰的美国统计学家耶日·奈曼提出的. 简单理解,比如从北京到张家界旅游5天,你恐怕不能准确说出要花多少钱,但你可以给出一个范围,比如10000-13000 ...
- 初学者都能看懂的95%置信区间
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 经常有同学私信或留言询问相关问题,V号bitcarmanlee.github ...
- Python使用matplotlib可视化时间序列数据、并为时间序列曲线添加误差带、使用95%置信区间(Time Series Error Bands with confidence interval
Python使用matplotlib可视化时间序列数据.并为时间序列曲线添加误差带.使用95%置信区间(Time Series with Error Bands with confidence int ...
最新文章
- 基于Boost::beast模块的异步HTTP客户端
- JS和CSS中引号的使用
- 在Kafka上异步发送数据
- C语言和设计模式(继承、封装、多态)
- 【linux(1),八年Java开发心路历程
- intellij idea 和 maven的自己的理解和安装配置
- Excel 2010实战技巧精粹
- matlab学习技巧之semilogx和semilogy函数
- 《麻省理工学院公开课:人工智能》笔记三
- AWS Lambda重大更新,跨越编程语言差异之门?
- 2054339-01-2,N-Boc-N-bis(PEG2-acid)它可以在活化剂(如EDC或HATU)存在下与伯氨基反应
- RabbitMQ-基础(二)
- 虾皮Shopee上货铺货助理工具
- matlab mag函数,频谱分析函数
- web安全:XSS测试平台使用教程
- 上海市建平中学2021年高考成绩查询,2021年上海市高中排名一览表
- 世界500强企业网页
- 网页中嵌入Flash播放器
- Python + Selenium,分分钟搭建 Web 自动化测试框架
- Tiva单片机——简易示波器(UART串口屏)
热门文章
- CreateProcess error=5, 拒绝访问。
- 2020下半年软件设计师上午真题及答案详解
- 测试工程师能否作为一份终生职业?30岁+怎么办?
- matlab 频偏估计
- barnyard2 mysql_CentOS 6.2下安装基于Suricata + Barnyard 2 + Base的入侵检测系统 | 学步园...
- PC端win10+selenium+浏览器(IE+Chrome+Firefox+Microsoft Edge)自动化测试驱动下载地址及环境配置
- 打印菱形图案(实心,空心)
- 通用计算机冯诺依曼,那些改变了世界的IT人(1)——冯·诺依曼
- 相对论【4】一般相对论的普通结果与闵可夫斯基四维空间简单介绍
- 开源函数计算平台 OpenFunction 保姆级入门教程