概率统计-方差与正态分布(高斯分布)
方差
方差表示的是一组数据相对于平均数 μ \mu μ的离散程度
在数据统计中,大部分情况下都是不能对总体的数据进行统计。比如统计一批键盘使用寿命,如果键盘都去做寿命测试,那都测坏了没法卖钱养家了。
此时需要从一批键盘中随机挑选一些键盘去代表总数进行测试。即抽取一些样本,对样本的计算结果去估计总体的一些情况。
平均数的计算公式 μ \mu μ = ∑ i = 1 n x i n \frac {\sum_{i=1}^n x_i} {n} n∑i=1nxi , 样本的平均数和总体的平均数求法一致的;
总体方差的计算公式 σ 2 \sigma^2 σ2 = ∑ i = 1 n ( x i − μ ) 2 n \frac{ {\sum_{i=1}^n} {(x_i - \mu )^2} } {n} n∑i=1n(xi−μ)2 ;
样本方差计算公式 σ 2 \sigma^2 σ2 = ∑ i = 1 n ( x i − μ ) 2 n − 1 \frac{ {\sum_{i=1}^n} {(x_i - \mu )^2} } {n-1} n−1∑i=1n(xi−μ)2 。
之所以分母是n-1,在样本数据足够大且无异常数据的情况下,分母可以为n 。
结论:样本估计的方差是总体方差的 n − 1 n \frac {n−1} {n} nn−1倍,样本方差的期望是总体方差的一个无偏估计 。
无偏估计:是多次随机取样本计算,此时样本就会无限接近总体计算值,这个过程就是无偏估计。
n n − 1 S 2 \frac {n} {n-1}S^2 n−1nS2 = n n − 1 \frac {n} {n-1} n−1n ∑ i = 1 n ( x i − μ ) 2 n \frac {\sum_{i=1}^n (x_i - \mu)^2} {n} n∑i=1n(xi−μ)2 = ∑ i = 1 n ( x i − μ ) 2 n − 1 \frac {\sum_{i=1}^n (x_i - \mu)^2} {n-1} n−1∑i=1n(xi−μ)2
正态分布(高斯分布)
正态分布,常态分布,高斯分布在不同的文章中会有不同的说法,他们的意义都是一样的。
通过上面的公式, 方差表示的是,观察数据偏离中心趋势(就是平均数)的离散程度。平均数表示观察数据的一般化情况。
知道观察数据的一般化情况和观察数据离散程度,那么就能得出很多特性了。
比如在平均数左右区间范围内,通过这个区间范围与 σ \sigma σ 标准差进行比较,就能得出对应的概率是多少,如果这种方式放到计算机中求一些大于某个数的概率是多少,计算机算法复杂度将会降到O(1)。由此就可以引出正态分布这个利器了,正态分布是前人已经整理好的东西,我们直接使用其结论解决问题就可以了。
正态分布的公式 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π 1 e − ( x − μ ) 2 2 σ 2 e^{- \frac {(x-\mu)^2} {2 \sigma^2}} e−2σ2(x−μ)2 也可以表示成 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π 1 exp{ − ( x − μ ) 2 2 σ 2 {- \frac {(x-\mu)^2} {2 \sigma^2}} −2σ2(x−μ)2 } 。
得到了计算公式,标准差 σ \sigma σ 为 2,平均数为 μ \mu μ 为 0。得到如下图。
正态分布高的意义
之前一直好奇,正态分布图像的高是什么意思。可以通过计算得出,根据上面已知的 σ \sigma σ和 μ \mu μ,带入公式,可以的出 f ( 0 ) f(0) f(0)等于 0.19947114020071635 。
那么高的意义是什么呢:
正态分布在计算概率密度时候,是根据距离中心值(平均值)的距离,然后求出对应图像的面积即是对应的概率;
如上所述,既然是求得面积得出对应的概率值。有了与中位值的距离,也就是宽。那么也应该需要有高。这里的高就是正态分布曲线存在的意义;
有时候离散程度( σ \sigma σ 标准差)大一点,那么这个纵轴就需要配合着降低点高度。因为图形面积(概率密度)要保证在距离中心位置( μ \mu μ平均数)的 σ \sigma σ标准差 范围内是一个固定值;这里也是体现正态分布纵轴(高度)的意义。
从正态分布的特性中,都知道,在距离一个 若干倍的 σ \sigma σ 范围内概率 是 固定值 。
下图可以看出,在若干倍的 σ \sigma σ 范围内的概率分布。所以正态分布都是前人准备好的,根据横轴就能得出概率密度了。
正态分布函数与函数积分 Java代码实现
为了能够快速验证,把Java代码贴出来。
normfun是正态分布函数 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π 1 exp{ − ( x − μ ) 2 2 σ 2 {- \frac {(x-\mu)^2} {2 \sigma^2}} −2σ2(x−μ)2 } 的代码。
代码的mu变量是公式中的 μ \mu μ 平均数,sigma变量是公式中的 σ \sigma σ 标准差,x就是变量中的x。
private static double normal(double x, double mu, double sigma) {double denominator = Math.pow(Math.E, -(((x - mu) * (x - mu)) / (2 * sigma * sigma)));double numerator = sigma * Math.sqrt(Math.PI * 2);return denominator / numerator;
}
验证正态分布函数是否满足性质,需要对正态分布函数求定积分,如下代码贴出了正态分布函数的定积分代码。
private static double calculate(double upperLimit, double lowerLimit) {double distence = 0.01;double count = (upperLimit - lowerLimit) / distence;double sum = 0;for (double i = 0; i < count; i++) {double calSum = lowerLimit + distence * i;double fxHigh = normal(calSum, 0, 2);double fxSquare = fxHigh * distence;sum += fxSquare;}return sum;
}
水平原因,错误难以避免,希望批评并不吝指出,谢谢!
概率统计-方差与正态分布(高斯分布)相关推荐
- 《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...
本节书摘来自华章计算机<Excel数据可视化:一样的数据不一样的图表>一书中的第2章,第2.3节,作者 恒盛杰资讯,更多章节内容可以访问云栖社区"华章计算机"公众号查看 ...
- 基于python/scipy学习概率统计(3):正态分布
目录 1. 前言 2. 概率密度函数(PDF: Probability Density Function)¶ 3. 累积分布函数(CDF: Cumulative Distribution Functi ...
- 【概率统计】用正态分布和泊松分布近似表示二项分布
目录 前言 一.正态分布证明 二.泊松分布证明 前言 二项分布 B ( n , p ) : P B = C n x p x q n − x ( x = 0 , 1 , 2 , . . . , n ) ...
- 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)
原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景 本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...
- 【数据挖掘】高斯混合模型 ( 与 K-Means 每个步骤对比 | 初始参数设置 | 计算概率 | 计算平均值参数 | 计算方差参数 | 计算高斯分布概率参数 | 算法终止条件 )
文章目录 I . 高斯混合模型 ( 样本 -> 模型 ) II . 高斯混合模型 ( 模型 -> 样本 ) III . 高斯混合模型 与 K-Means 迭代过程对比 IV . 高斯混合模 ...
- 概率统计:数学期望、方差、协方差、相关系数、矩
一 .数学期望(均值): 在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和.是最基本的数学特征之一.它反映随机变量平均取值的大小.其公式如下: ...
- 概率统计笔记:共轭分布
1 共轭的定义 在概率统计笔记:贝叶斯推断 Bayesian Inference_UQI-LIUWJ的博客-CSDN博客 中,我们有: 如果某个随机变量Θ的后验概率 p(θ|x)和先验概率p(θ)属于 ...
- 概率统计(一)随机事件与随机变量
常用的概率统计知识 一.随机事件 1.基本概念 2.概率 3.古典概型 4.条件概率 5.全概率公式和贝叶斯公式 二.随机变量 1.随机变量及其分布 2.离散型随机变量 (1)二项分布(伯努利试验) ...
- 机器学习中的数学(五)--概率统计
写在前面 <机器学习中的数学>系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等.本系列重在描述基本概念,并不在应用的方面的做深入的探讨, ...
最新文章
- u-boot的nand驱动写过程分析
- Invalid bound statement (not found) 解决方案
- 20201028 《计算感知》第4节课 笔记
- photoshop的页面制作练习1
- python操作redis用法详解
- python (3):wxPython打包app,报错
- Nginx基本功能及其原理
- log4j.properties的配置与详细说明
- 如何使用.NET清除IE的缓存(Temporary Internet Files)
- 安卓APP逆向入门破解
- gtp怎么安装系统_gpt格式硬盘如何安装win7系统教程
- Android apk安全监测及加固方案
- 安卓苹果手机抓取京东cookie
- 2021中国农业银行(浙江省分信息科技岗)春招笔试编程题(待更)
- ery validator addMethod 方法的使用
- 一朝春尽红颜老,花落人亡两不知
- centos 计算器_在Linux命令行中使用计算器的5个命令详解
- Arduino101/Genuino101的安装入门
- 物联卡在线商城-搜卡之家告诉你怎么在网上挑选最佳的纯流量卡?
- Li‘s 核磁共振影像数据处理-2-DWI实践:计算ADC (MD) map