一、离差(Deviation)

离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标,常写作:
x i − x ˉ x_i-\bar{x} xi​−xˉ
性质:

  1. 离差的代数和等于0;
  2. 参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值与平均数之外的任何数之差的平均和。

二、平均差(Mean Deviation、Average Deviation)

平均差也称为均值,是数据分布中所有原始数据与平均数距离的绝对值的平均。

平均差计算公式:
s = 1 n [ ∣ x 1 − x ˉ ∣ + ∣ x 2 − x ˉ ∣ + ⋯ + ∣ x n − x ˉ ∣ ] s=\frac{1}{n}[\lvert{x_1}-\bar{x}\rvert+\lvert{x_2}-\bar{x}\rvert+\cdots+\lvert{x_n}-\bar{x}\rvert] s=n1​[∣x1​−xˉ∣+∣x2​−xˉ∣+⋯+∣xn​−xˉ∣]
可记为:
X ˉ = ∑ i = 1 n X i n \bar{X}=\frac{\sum^n_{i=1}X_i}{n} Xˉ=n∑i=1n​Xi​​
其中, x i x_i xi​表示每个数据的值, x ˉ \bar{x} xˉ表示平均数,N=数据个数。

三、方差(Variance Deviation)

方差是各个数据与平均数之差的平方的和的平均数。

总体方差:
s 2 = 1 n [ ∣ x 1 − x ˉ ∣ 2 + ∣ x 1 − x ˉ ∣ 2 + ⋯ + ∣ x 1 − x ˉ ∣ 2 ] s^2=\frac{1}{n}[\lvert{x_1}-\bar{x}\rvert^2+\lvert{x_1}-\bar{x}\rvert^2+\cdots+\lvert{x_1}-\bar{x}\rvert^2] s2=n1​[∣x1​−xˉ∣2+∣x1​−xˉ∣2+⋯+∣x1​−xˉ∣2]
样本方差:
s 2 = 1 n − 1 [ ∣ x 1 − x ˉ ∣ 2 + ∣ x 1 − x ˉ ∣ 2 + ⋯ + ∣ x 1 − x ˉ ∣ 2 ] s^2=\frac{1}{n-1}[\lvert{x_1}-\bar{x}\rvert^2+\lvert{x_1}-\bar{x}\rvert^2+\cdots+\lvert{x_1}-\bar{x}\rvert^2] s2=n−11​[∣x1​−xˉ∣2+∣x1​−xˉ∣2+⋯+∣x1​−xˉ∣2]
样本方差可简记为:
s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 s^2=\frac{\sum^n_{i=1}(X_i-\bar{X})^2}{n-1} s2=n−1∑i=1n​(Xi​−Xˉ)2​
在公式中用 n n n作为除数时(尤其是当 n n n很小时),所得出的作为总体标准差估计值的样本标准差是有偏差的,而 n − 1 n-1 n−1作除数时,所得标准差则是无偏差的。因此,比较稳妥的做法是用 n − 1 n-1 n−1作除数。当然,当 n n n比较大时,用 n n n或 n − 1 n-1 n−1作除数,所得结果差别不大。

四、标准差(Standard Deviation)

方差取算术平方根,得到的结果称为标准差,用 σ \sigma σ表示,总体方差的算术平方根称为总体标准差,样本方差的算术平方根称为样本标准差。

总体标准差:
σ = ∑ i = 1 n ( X i − X ˉ ) 2 n \sigma=\sqrt{\frac{\sum^n_{i=1}(X_i-\bar{X})^2}{n}} σ=n∑i=1n​(Xi​−Xˉ)2​ ​
样本标准差:
S = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 S=\sqrt{\frac{\sum^n_{i=1}(X_i-\bar{X})^2}{n-1}} S=n−1∑i=1n​(Xi​−Xˉ)2​ ​
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

五、协方差(Covariance)

离差、平均差、方差、标准差一般是用来描述一维数据的,但实际中常常遇到含有多维数据的数据集,如果需要评估两个数据之间的联系,可以使用协方差。协方差是一种用来度量两个随机变量关系的统计量,其计算公式如下:
c o v ( X , Y ) = 1 n − 1 [ ( x 1 − x ˉ ) ( y 1 − y ˉ ) + ( x 2 − x ˉ ) ( y 2 − y ˉ ) + ⋯ + ( x n − x ˉ ) ( y n − y ˉ ) cov(X,Y)=\frac{1}{n-1}[(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y}) cov(X,Y)=n−11​[(x1​−xˉ)(y1​−yˉ​)+(x2​−xˉ)(y2​−yˉ​)+⋯+(xn​−xˉ)(yn​−yˉ​)
可记为:
c o v ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 cov(X,Y)=\frac{\sum^n_{i=1}(X_i-\bar{X})(Y_i-\bar{Y})}{n-1} cov(X,Y)=n−1∑i=1n​(Xi​−Xˉ)(Yi​−Yˉ)​
协方差的结果如果为正值,则说明两者是正相关的,如果结果为负值就说明负相关的,如果为0,则X与Y是相互独立的。

性质:

  1. c o v ( X , X ) = v a r ( x ) cov(X,X)=var(x) cov(X,X)=var(x)
  2. c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)

协方差应用

六、协方差矩阵(covariance matrix)

协方差矩阵定义:
设 X = ( x 1 , x 2 , ⋯ , x n ) X=(x_1,x_2,\cdots,x_n) X=(x1​,x2​,⋯,xn​)为n维变量,则称矩阵:
C = ( c i j ) n × n = ( c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋱ ⋮ c n 1 c n 2 ⋯ c n n ) C=(c_{ij})_{n×n}=\begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \\ \end{pmatrix} C=(cij​)n×n​=⎝⎜⎜⎜⎛​c11​c21​⋮cn1​​c12​c22​⋮cn2​​⋯⋯⋱⋯​c1n​c2n​⋮cnn​​⎠⎟⎟⎟⎞​
性质:

  1. c o v ( X , Y ) = c o v ( Y , X ) T cov(X,Y)=cov(Y,X)^T cov(X,Y)=cov(Y,X)T, T T T表示矩阵转置
  2. c o v ( A X + b , Y ) = A c o v ( X , Y ) cov(AX+b,Y)=Acov(X,Y) cov(AX+b,Y)=Acov(X,Y),其中 A A A是矩阵, b b b是变量。
  3. c o v ( X + Y , Z ) = c o v ( X , Y ) + c o v ( Y , Z ) cov(X+Y,Z)=cov(X,Y)+cov(Y,Z) cov(X+Y,Z)=cov(X,Y)+cov(Y,Z)

七、皮尔森相关系数(Pearson correlation coefficient)

7.1概述

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。皮尔森相关系数记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。

7.2定义

皮尔森相关系数为两个变量X、Y之间的协方差和两者标准差乘积的比值。
公式:
c o v ( X , Y ) v a r ( X ) × v a r ( Y ) \frac{cov(X,Y)}{\sqrt{var(X)×var(Y)}} var(X)×var(Y) ​cov(X,Y)​
即:
∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) \frac{\sum^n_{i=1}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum^n_{i=1}(X_i-\bar{X})^2}\sqrt{\sum^n_{i=1}(Y_i-\bar{Y})}} ∑i=1n​(Xi​−Xˉ)2 ​∑i=1n​(Yi​−Yˉ) ​∑i=1n​(Xi​−Xˉ)(Yi​−Yˉ)​

7.3值含义

相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

  • 0.8-1.0 极强相关
  • 0.6-0.8 强相关
  • 0.4-0.6 中等程度相关
  • 0.2-0.4 弱相关
  • 0.0-0.2 极弱相关或无相关

皮尔森相关系数(Pearson correlation coefficient)

参考资料

  1. 人工智能数学基础4
  2. 百度

Al-learing数学基础,平均差,方差,协方差相关推荐

  1. 协方差公式性质证明过程_论文推荐 | 刘志平:等价条件平差模型的方差-协方差分量最小二乘估计方法...

    <测绘学报> 构建与学术的桥梁 拉近与权威的距离 等价条件平差模型的方差-协方差分量最小二乘估计方法 刘志平1, 朱丹彤1, 余航1, 张克非1,2 1. 中国矿业大学环境与测绘学院, 江 ...

  2. python计算样本方差_Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算...

    使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算. variance: 方差 方差(Variance)是概率论中最基础的概念之一, ...

  3. python方差的计算公式_Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算...

    使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算. variance: 方差 方差(Variance)是概率论中最基础的概念之一, ...

  4. 数学基础之方差、标准差和协方差三者之间的定义与计算

    理解三者之间的区别与联系,要从定义入手,一步步来计算,同时也要互相比较理解,这样才够深刻. 方差 方差是各个数据与平均数之差的平方的平均数.在概率论和数理统计中,方差(英文Variance)用来度量随 ...

  5. [统计学理论基础] 方差 协方差 标准差

    统计里最基本的概念就是样本的均值.方差和标准差. 通过一个含有n个样本的集合,依次给出这些概念的公式描述. 均值描述的是样本集合的中间点,它告诉我们的信息是很有限的, 标准差描述的则是样本集合的各个样 ...

  6. 标准差 方差 协方差 相关系数

    一.统计学的基本概念 统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告 ...

  7. 随机变量的期望 方差 协方差 相关系数的性质

    期望性质:E(C)=C,C为任意常数 E(aX+bY)=aE(X)+bE(Y) E(aX+C)=aE(X)+C X,Y独立 E(XY)=E(X)E(Y) 方差:D(X)=E(X*X)-E(X)*E(X ...

  8. 数学基础----标准方差

    独立前提的逐项求和,可推广到有限项. 平均数: (n表示这组数据个数,x1.x2.x3--xn表示这组数据具体数值) 方差公式: 标准方差公式(1): 标准方差公式(2):

  9. 机器学习的数学基础 - 期望,方差与协方差

    期望 方差 协方差

  10. 期望、方差、协方差、协方差矩阵

    原 期望.方差.协方差和协方差矩阵 2018年06月07日 17:10:58 siucaan 阅读数:6231 </div><div class="operating&qu ...

最新文章

  1. 地铁闸门会夹伤人吗_西安地铁率先推出分类垃圾箱 四种类型你会放吗?
  2. 【Python自学】六个上手超强的学习工具,你值得有
  3. WebStorm荣获InfoWorld2014年度科技奖
  4. python建站部署_SpringBoot入门建站全系列(三十二)接入xxl-job分布式任务调度平台...
  5. java红包雨_Java升职加薪课开发企业年会红包雨场景项目实战视频教程
  6. 75 jsp基础语法汇总
  7. 用代码证明自己闲的蛋疼(四)——简易坑爹版学生管理系统
  8. java 档案管理系统论文_基于JAVA学生档案管理系统论文.doc
  9. GetSystemInfo
  10. 如何自定义Mac锁屏界面消息?
  11. 川大计算机类专业的录取分数线,四川大学重点专业排名及录取分数线
  12. oracle11g基于bootstrap$中的ind$表损坏系列五
  13. 【项目】数仓项目(三)
  14. 如何做述职报告/职级跃阶报告
  15. iOS—— 调用高德地图SDK
  16. 浅析PHS无线市话市场、技术发展前景及运营思路
  17. 【浙江大学C小程week5知识点整理】
  18. delphi 11(10.5) 来了
  19. java自动化测试语言高级之MySQL 连接
  20. 激光SLAM理论与实践-第五期 第一次作业(矩阵坐标变换)

热门文章

  1. css设overflow:hiden行内元素会发生偏移的现象
  2. 线性二分类——机器学习
  3. Storm中的Window机制
  4. 时间序列分类05:滑动窗口处理时间序列分类数据
  5. java最小因子_一个整数的所有最小因子
  6. fzoj Problem 2190 非提的救赎 【单调栈】
  7. 电脑桌面计算机文件打不开怎么办,教大家电脑桌面上的文件都打不开怎么办
  8. DIMM DDR 区别和联系
  9. python 小游戏500行以内_README.md
  10. 利用SSM(springmvc+spring+mybatis)实现多表联合查询