方差

方差表示的是一组数据相对于平均数 μ \mu μ的离散程度

在数据统计中,大部分情况下都是不能对总体的数据进行统计。比如统计一批键盘使用寿命,如果键盘都去做寿命测试,那都测坏了没法卖钱养家了。
此时需要从一批键盘中随机挑选一些键盘去代表总数进行测试。即抽取一些样本,对样本的计算结果去估计总体的一些情况。

平均数的计算公式 μ \mu μ = ∑ i = 1 n x i n \frac {\sum_{i=1}^n x_i} {n} n∑i=1n​xi​​ , 样本的平均数和总体的平均数求法一致的;

总体方差的计算公式 σ 2 \sigma^2 σ2 = ∑ i = 1 n ( x i − μ ) 2 n \frac{ {\sum_{i=1}^n} {(x_i - \mu )^2} } {n} n∑i=1n​(xi​−μ)2​ ;

样本方差计算公式 σ 2 \sigma^2 σ2 = ∑ i = 1 n ( x i − μ ) 2 n − 1 \frac{ {\sum_{i=1}^n} {(x_i - \mu )^2} } {n-1} n−1∑i=1n​(xi​−μ)2​ 。

之所以分母是n-1,在样本数据足够大且无异常数据的情况下,分母可以为n 。
结论:样本估计的方差是总体方差的 n − 1 n \frac {n−1} {n} nn−1​倍,样本方差的期望是总体方差的一个无偏估计 。
无偏估计:是多次随机取样本计算,此时样本就会无限接近总体计算值,这个过程就是无偏估计

n n − 1 S 2 \frac {n} {n-1}S^2 n−1n​S2 = n n − 1 \frac {n} {n-1} n−1n​ ∑ i = 1 n ( x i − μ ) 2 n \frac {\sum_{i=1}^n (x_i - \mu)^2} {n} n∑i=1n​(xi​−μ)2​ = ∑ i = 1 n ( x i − μ ) 2 n − 1 \frac {\sum_{i=1}^n (x_i - \mu)^2} {n-1} n−1∑i=1n​(xi​−μ)2​

正态分布(高斯分布)

正态分布,常态分布,高斯分布在不同的文章中会有不同的说法,他们的意义都是一样的。
通过上面的公式, 方差表示的是,观察数据偏离中心趋势(就是平均数)的离散程度。平均数表示观察数据的一般化情况。
知道观察数据的一般化情况和观察数据离散程度,那么就能得出很多特性了。
比如在平均数左右区间范围内,通过这个区间范围与 σ \sigma σ 标准差进行比较,就能得出对应的概率是多少,如果这种方式放到计算机中求一些大于某个数的概率是多少,计算机算法复杂度将会降到O(1)。由此就可以引出正态分布这个利器了,正态分布是前人已经整理好的东西,我们直接使用其结论解决问题就可以了。

正态分布的公式 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π ​1​ e − ( x − μ ) 2 2 σ 2 e^{- \frac {(x-\mu)^2} {2 \sigma^2}} e−2σ2(x−μ)2​ 也可以表示成 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π ​1​ exp{ − ( x − μ ) 2 2 σ 2 {- \frac {(x-\mu)^2} {2 \sigma^2}} −2σ2(x−μ)2​ } 。

得到了计算公式,标准差 σ \sigma σ 为 2,平均数为 μ \mu μ 为 0。得到如下图。

正态分布高的意义

之前一直好奇,正态分布图像的高是什么意思。可以通过计算得出,根据上面已知的 σ \sigma σ和 μ \mu μ,带入公式,可以的出 f ( 0 ) f(0) f(0)等于 0.19947114020071635
那么高的意义是什么呢:
正态分布在计算概率密度时候,是根据距离中心值(平均值)的距离,然后求出对应图像的面积即是对应的概率;
如上所述,既然是求得面积得出对应的概率值。有了与中位值的距离,也就是宽。那么也应该需要有高。这里的高就是正态分布曲线存在的意义;
有时候离散程度( σ \sigma σ 标准差)大一点,那么这个纵轴就需要配合着降低点高度。因为图形面积(概率密度)要保证在距离中心位置( μ \mu μ平均数)的 σ \sigma σ标准差 范围内是一个固定值;这里也是体现正态分布纵轴(高度)的意义。
从正态分布的特性中,都知道,在距离一个 若干倍的 σ \sigma σ 范围内概率 是 固定值

下图可以看出,在若干倍的 σ \sigma σ 范围内的概率分布。所以正态分布都是前人准备好的,根据横轴就能得出概率密度了。

正态分布函数与函数积分 Java代码实现

为了能够快速验证,把Java代码贴出来。
normfun是正态分布函数 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π ​1​ exp{ − ( x − μ ) 2 2 σ 2 {- \frac {(x-\mu)^2} {2 \sigma^2}} −2σ2(x−μ)2​ } 的代码。

代码的mu变量是公式中的 μ \mu μ 平均数,sigma变量是公式中的 σ \sigma σ 标准差,x就是变量中的x。

private static double normal(double x, double mu, double sigma) {double denominator = Math.pow(Math.E, -(((x - mu) * (x - mu)) / (2 * sigma * sigma)));double numerator = sigma * Math.sqrt(Math.PI * 2);return denominator / numerator;
}

验证正态分布函数是否满足性质,需要对正态分布函数求定积分,如下代码贴出了正态分布函数的定积分代码。

private static double calculate(double upperLimit, double lowerLimit) {double distence = 0.01;double count = (upperLimit - lowerLimit) / distence;double sum = 0;for (double i = 0; i < count; i++) {double calSum = lowerLimit + distence * i;double fxHigh = normal(calSum, 0, 2);double fxSquare = fxHigh * distence;sum += fxSquare;}return sum;
}

水平原因,错误难以避免,希望批评并不吝指出,谢谢!

概率统计-方差与正态分布(高斯分布)相关推荐

  1. 《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

    本节书摘来自华章计算机<Excel数据可视化:一样的数据不一样的图表>一书中的第2章,第2.3节,作者 恒盛杰资讯,更多章节内容可以访问云栖社区"华章计算机"公众号查看 ...

  2. 基于python/scipy学习概率统计(3):正态分布

    目录 1. 前言 2. 概率密度函数(PDF: Probability Density Function)¶ 3. 累积分布函数(CDF: Cumulative Distribution Functi ...

  3. 【概率统计】用正态分布和泊松分布近似表示二项分布

    目录 前言 一.正态分布证明 二.泊松分布证明 前言 二项分布 B ( n , p ) : P B = C n x p x q n − x ( x = 0 , 1 , 2 , . . . , n ) ...

  4. 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)

    原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景 本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...

  5. 【数据挖掘】高斯混合模型 ( 与 K-Means 每个步骤对比 | 初始参数设置 | 计算概率 | 计算平均值参数 | 计算方差参数 | 计算高斯分布概率参数 | 算法终止条件 )

    文章目录 I . 高斯混合模型 ( 样本 -> 模型 ) II . 高斯混合模型 ( 模型 -> 样本 ) III . 高斯混合模型 与 K-Means 迭代过程对比 IV . 高斯混合模 ...

  6. 概率统计:数学期望、方差、协方差、相关系数、矩

    一  .数学期望(均值): 在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和.是最基本的数学特征之一.它反映随机变量平均取值的大小.其公式如下: ...

  7. 概率统计笔记:共轭分布

    1 共轭的定义 在概率统计笔记:贝叶斯推断 Bayesian Inference_UQI-LIUWJ的博客-CSDN博客 中,我们有: 如果某个随机变量Θ的后验概率 p(θ|x)和先验概率p(θ)属于 ...

  8. 概率统计(一)随机事件与随机变量

    常用的概率统计知识 一.随机事件 1.基本概念 2.概率 3.古典概型 4.条件概率 5.全概率公式和贝叶斯公式 二.随机变量 1.随机变量及其分布 2.离散型随机变量 (1)二项分布(伯努利试验) ...

  9. 机器学习中的数学(五)--概率统计

    写在前面 <机器学习中的数学>系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等.本系列重在描述基本概念,并不在应用的方面的做深入的探讨, ...

最新文章

  1. u-boot的nand驱动写过程分析
  2. Invalid bound statement (not found) 解决方案
  3. 20201028 《计算感知》第4节课 笔记
  4. photoshop的页面制作练习1
  5. python操作redis用法详解
  6. python (3):wxPython打包app,报错
  7. Nginx基本功能及其原理
  8. log4j.properties的配置与详细说明
  9. 如何使用.NET清除IE的缓存(Temporary Internet Files)
  10. 安卓APP逆向入门破解
  11. gtp怎么安装系统_gpt格式硬盘如何安装win7系统教程
  12. Android apk安全监测及加固方案
  13. 安卓苹果手机抓取京东cookie
  14. 2021中国农业银行(浙江省分信息科技岗)春招笔试编程题(待更)
  15. ery validator addMethod 方法的使用
  16. 一朝春尽红颜老,花落人亡两不知
  17. centos 计算器_在Linux命令行中使用计算器的5个命令详解
  18. Arduino101/Genuino101的安装入门
  19. 物联卡在线商城-搜卡之家告诉你怎么在网上挑选最佳的纯流量卡?
  20. Li‘s 核磁共振影像数据处理-2-DWI实践:计算ADC (MD) map

热门文章

  1. 2020年数学建模国赛C题Demo【准确率只有61%,仅供参考】
  2. 2018公众号电商标准版功能解读
  3. 找出10000以内的自然数中的所有完数,并统计找到的完数个数。所谓完数个数,指它恰好等于除它本身之外的因子之和
  4. Python 用pandas写入csv文件举例
  5. LVGL笔记10--lv_cont容器
  6. 这可能是京东考前焦虑最重的一次618
  7. MVVM理解 ——(2)数据劫持
  8. 目前最火热的IT技术有哪些?
  9. 【毕业设计/matlab系列】基于区域生长和形态学处理的道路检测实现【含Matlab源码】
  10. 栈,队列和链表三者之间的关系与区别