中心极限定理 central limit theorem

中心极限定理是很多统计的基础,解释自然界中大多数数据属于正态分布,这使得正态分布在统计学中的应用非常广泛。「为什么中心极限定理能够解释数据属于正态分布,接下来我们就以不同类型的原始数据进行证明。」

even if you’re not normal,the average is normal

中心极限定理指的是给定一个任意分布的总体(除了无法计算均值的分布以外)。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近(符合)正态分布。(除了柯西分布(Cauchy distribution)没有样本均数外,几乎所有的其他分布都能计算样本均数。)

运用举例
当我们在进行实践的时候,我们往往不能知道样本数据来源于哪种分布。「基于中心极限定理,不管样本数据来源于哪种分布,样本均值们均属于正态分布,故我们不用考虑数据来源的分布」。

利用样本均值们属于正态分布这一性质,计算置信区间(confidence intervals)。t-test可以用于检验两样本的均值是否具有统计差异;ANOVA用于检验三样本的均值是否具有统计差异;或者其他使用样本均值的检验

实际数据 证明1——原始数据为均匀分布

例如在「均匀分布(在相同长度间隔的分布概率是等可能的)」 中随机抽样20个样本,接着计算20个样本的均值。

重复以上步骤20次、100次,将20个、100个均值结果绘制成直方图。随着重复次数的增多,越来越多的均值分布呈现出正态分布的趋势。「大量随机试验均值的分布为正态分布,这就是中心极限定理。」 「即使取样的原始总体属于均匀分布,但来自均匀分布的均值属于正态分布。」

实际数据证明2——原始数据为指数分布

R语言代码

数据集准备

# rm(list = ls())
library(tidyverse)
library(ggplot2)
df  <-  data.frame(x = 1:100,y1 = dnorm(1:100,50,20),y2 = dunif(1:100,1,100),y3 = dexp(1:100,0.06)) %>% as_tibble()
set.seed(1004)
head(df)
## # A tibble: 6 x 4
##       x       y1     y2     y3
##   <int>    <dbl>  <dbl>  <dbl>
## 1     1 0.000992 0.0101 0.0565
## 2     2 0.00112  0.0101 0.0532
## 3     3 0.00126  0.0101 0.0501
## 4     4 0.00142  0.0101 0.0472
## 5     5 0.00159  0.0101 0.0444
## 6     6 0.00177  0.0101 0.0419
rn1  <-  rnorm(100,50,20)
set.seed(1004)
rn2  <-  runif(100,1,100)
set.seed(1004)
rn3  <-  rexp(100,0.06)
rn <- data.frame(x = 1:100,rn1 = rn1,rn2 = rn2,rn3 = rn3)
head(df)
## # A tibble: 6 x 4
##       x       y1     y2     y3
##   <int>    <dbl>  <dbl>  <dbl>
## 1     1 0.000992 0.0101 0.0565
## 2     2 0.00112  0.0101 0.0532
## 3     3 0.00126  0.0101 0.0501
## 4     4 0.00142  0.0101 0.0472
## 5     5 0.00159  0.0101 0.0444
## 6     6 0.00177  0.0101 0.0419

分布表图展示

#1.正态分布
(p1  <-  ggplot(df,aes(x = x,y = y1))+geom_line()+theme_classic())
#2.均匀分布
(p2  <-  ggplot(df,aes(x = x,y = y2))+geom_line()+theme_classic())
#3.指数分布
(p3  <-  ggplot(df,aes(x = x,y = y3))+geom_line()+theme_classic())
p1+p2+p3

三种分布分别证明

第一种-正态分布数据的均值分布

#画均值竖线
(a1  <-  p1)
n  <-  c()
# n <- vector()
?sample
# sample(1:8,8,replace = F)
# sample(seq(1,8),8,replace = F)
for(i in 1:100){n[[i]]  <-  mean(sample(rn$rn1,50,replace = F))a1  <-  a1 + geom_vline(xintercept = n[[i]],color = "red",size = 0.3,alpha = 0.3)
}
a1#画直方图
dat = data.frame(n = n)
b1 = ggplot(dat,aes(x = n,y = ..density..))+geom_histogram(color = "#D0505D",fill = "#D0505D",alpha = 0.4,binwidth = 1)+theme_classic()+labs(x="n (mean value)") +scale_y_continuous(expand = c(0,0))
b1#加正态曲线
# 根据上述的直方图找到 类似直方图的 均值 和 方差
?dnorm
y = data.frame(x = seq(40,62,0.2),y1 = dnorm(seq(40,62,0.2),50,2))
(b1 = b1 + geom_line(aes(x = x,y = y1),data = y))
a1 + b1

第二种-均匀分布数据的均值分布

#画均值竖线
a2 = p2
n = c()
for(i in 1:100){n[[i]] = mean(sample(rn$rn2,50))a2 = a2 + geom_vline(xintercept = n[[i]],color = "red",size = 0.3,alpha = 0.3)
}#画直方图
dat = data.frame(n = n)
b2 = ggplot(dat,aes(x = n,y = ..density..))+geom_histogram(color = "#D0505D",fill = "#D0505D",alpha = 0.4,binwidth = 1)+theme_classic()+labs(x="n (mean value)") +scale_y_continuous(expand = c(0,0))
b2#加正态曲线
# 根据上述的直方图找到 类似直方图的 均值 和 方差
y = data.frame(x = 40:62,y1 = dnorm(40:62,50,3))
b2 = b2 + geom_line(aes(x = x,y = y1),data = y)
a2 + b2

第三种-指数分布数据的均值分布

#画均值竖线
a3 = p3
n = c()
for(i in 1:100){n[[i]] = mean(sample(rn$rn3,50))a3 = a3 + geom_vline(xintercept = n[[i]],color = "red",size = 0.3,alpha = 0.3)
}#画直方图
dat = data.frame(n = n)
b3 = ggplot(dat,aes(x = n,y = ..density..))+geom_histogram(color = "#D0505D",fill = "#D0505D",alpha = 0.4,binwidth = 1)+theme_classic()+labs(x="n (mean value)") +scale_y_continuous(expand = c(0,0))
b3#加正态曲线
# 根据上述的直方图找到 类似直方图的 均值 和 方差
y = data.frame(x = seq(11,22,0.1),y1 = dnorm(seq(11,22,0.1),16.5,1.5))
b3 = b3 + geom_line(aes(x = x,y = y1),data = y)
a3 + b3

中心极限定理指的是给定一个任意分布的总体(除了无法计算均值的分布以外)。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近(符合)正态分布。

# 总结
library(patchwork)
(p1+p2+p3)/(a1+a2+a3)/(b1+b2+b3)

参考链接(主要从以下2个链接搬运)
正态分布与中心极限定理
即使你不normal,平均值也normal–神奇的中心极限定理

中心极限定理 central limit theorem相关推荐

  1. Boole‘s,Doob‘s inequality,中心极限定理Central Limit Theorem,Kolmogorov extension theorem, Lebesgue‘s domin

    1. Boole's inequality In probability theory, Boole's inequality, also known as the union bound, says ...

  2. Central Limit Theorem - 中心极限定理

    Central Limit Theorem - 中心极限定理 中心极限定理是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理.中心极限定理是数理统计学和误差分析的理论基础,指出了大量随机变 ...

  3. 中心极限定理(Central Limit Theorem)

    1.中心极限定理 中心极限定理告诉我们,当样本足够大时,样本均值的分布会慢慢变成正态分布 --摘自:大数定律和中心极限定理的区别和联系 下图来自:大数定律和中心极限定理的区别和联系 笔记来源:The ...

  4. tutte定理证明hall定理_深入浅出|中心极限定理(Central Limit Theorem)及证明

    在介绍统计学中最重要的定理之一-中心极限定理-之前,我们先来想一个问题:统计学的目的是什么?根据<Mathematical statistics with application 7th Edi ...

  5. 大数定理 中心极限定理_中心极限定理:直观的遍历

    大数定理 中心极限定理 One of the most beautiful concepts in statistics and probability is Central Limit Theore ...

  6. [概率统计]—中心极限定理

    什么是中心极限定理 中心极限定理Central Limit Theorem:设从均值为μ.方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ. ...

  7. R 语言与中心极限定理

    中心极限定理(Central Limit Theorem) 对于一个样本量足够大的随机抽样,统计量 X¯\bar{X} 的抽样分布近似服从一正态分布. 用数学语言描述:设随机变量 X1,X2,⋯,Xn ...

  8. clt框架_中心极限定理clt数据科学

    clt框架 As we have seen in the previous article, "Inferential Statistics" plays a significan ...

  9. 统计学3:中心极限定理、参数估计:点估计和区间估计(置信区间)

    1.中心极限定理 (Central Limit Theorem) 1)中心极限定理(就是描述样本均值的分布情况) 随着样本容量(Sample size) n趋于无穷, 样本均值(Sampling Di ...

  10. C语言验证中心极限定理,中心极限定理到底是什么意思

    中心极限定理(central limit theorem)是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理.这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量积累分布函数逐点收敛 ...

最新文章

  1. 一台计算机如何创建多个用户,一台电脑怎么管理多个腾讯视频号
  2. Mozilla官方:Firefox 3.5.1问题并非安全漏洞 仅是堆溢出Crash
  3. 透过面试题,洞察Hbase 核心知识点
  4. syslog可能引起得问题_牙齿经常有问题?可能是这4个坏习惯引起的,要改正
  5. lisp正负调换_lisp中如何把符号转换为字符串
  6. 一企业靠数据中台打通SAP、ERP系统,还能做出可视化分析
  7. 搜狗AI,正在抢滩智能手机
  8. 安装Kibana报错[warning][admin][elasticsearch] Unable to revive connection: http://localhost:9200/
  9. 有读二本国防计算机学校,好的二本计算机大学
  10. python能干什么知乎-python能做什么知乎
  11. android不同sdk版本控制,闲谈Android SDK开发
  12. zscore标准化步骤_几种常用数据标准化方法
  13. 数学分析习题解答(四:第一部分)
  14. 电脑卡顿?性能不足?一套连招榨干你的电脑!
  15. 给Ubuntu安装驱动(nvidia)保姆级教程(方法一)
  16. 特征选择对于机器学习重要性
  17. Moore Voting
  18. long和Long的区别
  19. webapp开发—手机屏幕分辨率和浏览器分辨率不要混淆
  20. springboot社工服务中心管理信息系统 毕业设计-附源码021009

热门文章

  1. java黄金分割点游戏_结对编程——Java实现黄金分割点游戏
  2. Android 开发艺术探索笔记(12),android开发教程百度网盘
  3. oracle数据文件大小
  4. 服务器属于网络计算机,服务器它到底是什么,和电脑又有什么区别
  5. 字节跳动实习生转正工资_字节跳动西瓜视频招聘 | 新媒体运营实习生
  6. 我的世界做计算机运算原理,我的世界加法计算器原理解说及BCD全加器教程
  7. 【11-13】A股主要指数的市盈率(PE)估值高度
  8. 关于深度图/视差图转为伪彩色的方法
  9. ubuntu安装github 3D渲染库dirt
  10. CVPR 2021 Oral | 妙啊!不怕遮挡的图像线段匹配 SOLD2,还能联合自监督线段检测