标准差

  • 标准差(Standard Deviation)是离均值平方的算术平均数的平方根,用符号 σ \sigma σ 表示,其实标准差就是方差的算术平方根
  • 标准差和方差都是测量离散趋势的最重要、最常见的指标。
  • 标准差和方差的不同点自傲与,标准差和变量的计算单位是相同的,比方差清楚,因此在很多分析的时候使用的是标准差
  • σ = D ( X ) = ∑ ( X − μ ) 2 N \sigma = \sqrt{D(X)} = \sqrt{\frac{\sum (X-\mu)^2}{N}} σ=D(X) ​=N∑(X−μ)2​ ​

标准差的计算

  • 有这样两组数据

    • 一组:

      • X 1 : 2 , 4 , 6 , 8 , 10 X_1: 2, 4, 6, 8, 10 X1​:2,4,6,8,10
      • P ( X 1 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_1): 0.2, 0.2, 0.2, 0.2, 0.2 P(X1​):0.2,0.2,0.2,0.2,0.2
      • D ( X 1 ) = 8 , σ 1 = D ( X 1 ) = 8 = 2.8284 D(X_1) = 8, \sigma_1 = \sqrt{D(X_1)} = \sqrt{8} = 2.8284 D(X1​)=8,σ1​=D(X1​) ​=8 ​=2.8284
    • 二组:
      • X 1 : 4 , 5 , 6 , 7 , 8 X_1: 4, 5, 6, 7, 8 X1​:4,5,6,7,8
      • P ( X 2 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_2): 0.2, 0.2, 0.2, 0.2, 0.2 P(X2​):0.2,0.2,0.2,0.2,0.2
      • D ( X 2 ) = 2 , σ 2 = D ( X 2 ) = 2 = 1.4142 D(X_2) = 2, \sigma_2 = \sqrt{D(X_2)} = \sqrt{2} = 1.4142 D(X2​)=2,σ2​=D(X2​) ​=2 ​=1.4142

例1

  • 有甲乙两个单位愿意聘用你,而你能够获得的信息如下,请根据工资待遇的差异情况,您选择哪家单位?为什么?
  • 甲单位
    • 甲单位不同职位与工资 X 1 X_1 X1​元: 1200, 1400, 1600, 1800
    • 获取该职位的概率 P 1 P_1 P1​: 0.4, 0.3, 0.2, 0.1
    • E ( X 1 ) = 1400 , D ( X 1 ) = 40000 E(X_1) = 1400, D(X_1) = 40000 E(X1​)=1400,D(X1​)=40000
  • 乙单位
    • 一单位不同职位月工资 X 2 X_2 X2​元: 1000, 1400, 1800, 2200
    • 获取该职位的概率 P 2 P_2 P2​: 0.4, 0.3, 0.2, 0.1
    • E ( X 2 ) = 1400 , D ( X 2 ) = 160000 E(X_2) = 1400, D(X_2) = 160000 E(X2​)=1400,D(X2​)=160000

例2

  • 已知随机变量X的分布列如下,分别求 E ( X ) 、 E ( 2 X + 5 ) 、 D ( X ) 、 σ ( X ) E(X)、E(2X+5)、D(X)、\sigma(X) E(X)、E(2X+5)、D(X)、σ(X)的值
  • X:-2, 1, 3
  • P:0.16, 0.44, 0.40
  • 分析
    • E ( X ) = − 2 ∗ 0.16 + 1 ∗ 0.44 + 3 ∗ 0.40 = 1.32 E(X) = -2 * 0.16 + 1 * 0.44 + 3 * 0.40 = 1.32 E(X)=−2∗0.16+1∗0.44+3∗0.40=1.32
    • E ( 2 X + 5 ) = 2 E ( X ) + 5 = 2 ∗ 1.32 + 5 E(2X+5) = 2E(X) + 5 = 2 * 1.32 + 5 E(2X+5)=2E(X)+5=2∗1.32+5
    • D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = ( − 2 ) 2 ∗ 0.16 + 1 2 ∗ 0.44 + 3 2 ∗ 0.40 − 1.3 2 2 = 2.9376 D(X) = E(X^2) - (E(X))^2 = (-2)^2 * 0.16 + 1^2 * 0.44 + 3^2 * 0.40 - 1.32^2 = 2.9376 D(X)=E(X2)−(E(X))2=(−2)2∗0.16+12∗0.44+32∗0.40−1.322=2.9376
    • σ ( X ) = D ( X ) = 2.9376 ≈ 1.7139 \sigma(X) = \sqrt{D(X)} = \sqrt{2.9376} \approx 1.7139 σ(X)=D(X) ​=2.9376 ​≈1.7139

协方差

  • 协方差常用于衡量两个变量的总体误差;当两个变量相同的情况下,协方差其实就是方差
  • 如果X和Y是统计独立的,那么二值之间的协方差为零。但是如果协方差为零,那么X和Y是不相关的
  • C o v ( X , Y ) = E [ ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) = E[(X - E(X)) · (Y - E(Y))] = E[XY - XE(Y) - YE(X) + E(X)E(Y)] = E(XY) - E(X)E(Y) Cov(X,Y)=E[(X−E(X))⋅(Y−E(Y))]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)
  • 假设C为一个常数,X和Y是两个随机变量,那么协方差有性质如下所示:
    • C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y,X) Cov(X,Y)=Cov(Y,X)
    • C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX, bY) = abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
    • C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y) Cov(X1​+X2​,Y)=Cov(X1​,Y)+Cov(X2​,Y)
  • 协方差是两个随机变量具有相同方向变化趋势的度量
    • (1). 若 C o v ( X , Y ) > 0 Cov(X,Y) > 0 Cov(X,Y)>0, 则X和Y的变化趋势相同
    • (2). 若 C o v ( X , Y ) < 0 Cov(X,Y) < 0 Cov(X,Y)<0, 则X和Y的变化趋势相反
    • (3). 若 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0, 则X和Y不相关,也就是变化没有什么相关性

协方差矩阵

  • 对于n个随机向量 ( X 1 , X 2 , X 3 , . . . , X n ) (X_1, X_2, X_3, ..., X_n) (X1​,X2​,X3​,...,Xn​), 任意两个元素 X i X_i Xi​和 X j X_j Xj​都可以得到一个协方差,从而形成一个 n ∗ n n*n n∗n的矩阵,该矩阵就叫做协方差矩阵,协方差矩阵为对称矩阵
  • C i j = E { [ X i − E ( X i ) ] [ X j − E ( X j ) ] } = C o v ( X i , X j ) C_{ij} = E\{ [X_i - E(X_i)] [X_j - E(X_j)] \} = Cov(X_i, X_j) Cij​=E{[Xi​−E(Xi​)][Xj​−E(Xj​)]}=Cov(Xi​,Xj​)
  • C = [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋯ ⋯ ⋯ ⋯ c n 1 c n 2 ⋯ c n n ] C =\left [\begin{array}{cccc}c_{11} & c_{12} & \cdots & c_{1n} \\c_{21} & c_{22} & \cdots & c_{2n} \\\cdots & \cdots & \cdots & \cdots \\c_{n1} & c_{n2} & \cdots & c_{nn}\end{array} \right ] C=⎣⎢⎢⎡​c11​c21​⋯cn1​​c12​c22​⋯cn2​​⋯⋯⋯⋯​c1n​c2n​⋯cnn​​⎦⎥⎥⎤​

Pearson相关系数

  • 协方差可以描述X和Y的相关程度,但是协方差的值和X/Y的值采用那个的是不同的量纲,导致协方差在数值上表现出较大的差异,因此可以引入相关系数来标识X和Y的相关性
  • ρ ( X , Y ) = C o v ( X , Y ) D ( X ) ⋅ D ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{D(X)} · \sqrt{D(Y)}} ρ(X,Y)=D(X) ​⋅D(Y) ​Cov(X,Y)​
绝对值范围 含义
0.8 - 1.0 极强相关
0.6 - 0.8 强相关
0.4 - 0.6 中等程度相关
0.2 - 0.4 弱相关
0 - 0.2 极强相关或无相关
  • 当 ρ ( X , Y ) = 0 \rho(X,Y) = 0 ρ(X,Y)=0的时候,称X和Y不线性相关
  • Pearson相关系数取值范围是 [ − 1 , 1 ] [-1, 1] [−1,1]

中心距、原点矩

  • 假设X和Y是随机变量,若 E ( X k ) , k = 1 , 2 , . . . E(X^k), k=1,2,... E(Xk),k=1,2,...存在,则称它为k阶原点距,简称k阶距
  • 若 E { [ X − E ( X ) ] k } E\{ [X - E(X)]^k \} E{[X−E(X)]k}, k=1,2,…存在, 则称它为X的k阶中心距
  • 若 E { [ X − c ] k } E\{ [X - c]^k \} E{[X−c]k}, k=1,2,…存在, 则称它为X的关于点c的k阶矩
  • 若 E { X k Y p } E\{ X^k Y^p \} E{XkYp}, k、p = 1,2,…存在,则称它为X和Y的k+p阶混合原点矩
  • 若 E { [ X − E ( X ) ] k [ Y − E ( Y ) ] p } E\{ [X-E(X)]^k [Y - E(Y)]^p \} E{[X−E(X)]k[Y−E(Y)]p}, k、p = 1,2,…存在, 则称它为X和Y的k+p阶混合中心距
  • X的数学期望E(X)是X的一阶原点矩
  • X的方差D(X)是X的二阶中心矩
  • X和Y的协方差Cov(X,Y)是X和Y的二阶混合中心矩

峰度

  • 峰度(peakedness, kurtosis)又称峰态系数。表示了概率密度分布曲线在平均值处峰值高低的特征数,直观来说,峰值反映的是峰部的尖度。
  • 样本的峰度是和正态分布相比较而言的统计量,如果峰度值大于三,那么峰的形状比较尖,比正态分布峰要陡峭,反之亦然。
  • 峰度计算公式:随机变量的四阶中心矩与方差平方的比值
    • k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 4 ( N − 1 ) ⋅ s 4 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^4}{(N-1) · s^4} kurtosis=(N−1)⋅s4∑i=1N​(xi​−xˉ)4​

偏度

  • 偏度系数(skewness)是描述分布偏离对称性程度的一个特征数。
  • 当分布左右对称的时候,偏度系数为0
  • 当偏度系数大于0的时候,即重尾在右侧时,该分布为右偏
  • 当偏度系数小于0的时候,即重尾在左侧时,该分布为左偏
  • 偏度计算公式:随机变量的三阶中心距与标准差立方的比值
    • k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 3 ( N − 1 ) ⋅ s 3 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^3}{(N-1)·s^3} kurtosis=(N−1)⋅s3∑i=1N​(xi​−xˉ)3​

AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度相关推荐

  1. AI笔记: 数学基础之数字特征-期望与方差

    关于 3 σ 3\sigma 3σ法则 备注:图片托管于github,请确保网络的可访问性 3 σ 3\sigma 3σ法则: 3 σ 3\sigma 3σ之外的数据可认为异常数据 期望 期望(mea ...

  2. 概率 | 【提神醒脑】自用笔记串联二 —— 数字特征、大数定律、统计量

    本文总结参考于 kira 2023概率提神醒脑技巧班. 笔记均为自用整理.加油!ヾ(◍°∇°◍)ノ゙ 第一部分笔记详见 概率 | [提神醒脑]自用笔记串联一 -- 事件.随机变量及其分布_西皮呦的博客 ...

  3. AI笔记: 数学基础之联合概率、条件概率与全概率公式

    联合概率 表示两个事件共同发生的概率,事件A和事件B的共同概率记为:P(AB).P(A,B)P(AB).P(A,B)P(AB).P(A,B) 或者P(A∩B)P(A \cap B)P(A∩B), 记为 ...

  4. AI笔记: 数学基础之概率与统计

    概率 1 )概率与频率 概率是一个稳定的数值,也就是某件事发生或不发生的概率是多少. 频率是在一定数量的某件事情上面,发生的数与总数的比值. 假设事件A的概率是0.3,在100次中发生28次,那么它的 ...

  5. AI笔记: 数学基础之向量组的线性表示与线性相关

    向量组 向量组:有限个相同维度的行向量或列向量组合成的一个集合就叫做向量组A 如果是行向量,那么表示为:A=(a1⃗a2⃗a3⃗⋮an⃗⋮)A = \left (\begin{array}{cccc} ...

  6. AI笔记: 数学基础之函数的导数应用及求导公式

    关于导数 导数是数学中非常重要的概念,它能反应出速度变化的快慢,尤其在AI的算法分析,优化以及数据挖掘中用到很多 导数的引出 引例1 变速直线运动的速度 s是距离,t是时间,v是速度 设描述指点运动的 ...

  7. AI笔记: 数学基础之二项分布与二项式定理

    概率试验 1.投掷一个骰子投掷5次 2.某人射击1次,击中目标的概率是0.8, 他射击10次: 3.一个盒子中装有5个球(3红2白),有放回依次从中抽取5个球 4.生产一种零件,出现次品的概率是0.0 ...

  8. AI笔记: 数学基础之正交矩阵与矩阵的QR分解

    正交矩阵 若n阶方阵A满足ATA=EA^TA = EATA=E, 则称A为正交矩阵, 简称正交阵 (复数域上称为酉矩阵) A是正交阵的充要条件:A的列(行)向量都是单位向量,且两两正交. 若A为正交矩 ...

  9. AI笔记: 数学基础之直线、圆和方程

    直线 1 ) 表示直线的几种形式 一般式:ax+by+c=0ax + by + c = 0ax+by+c=0 (a,b不能同时为0) 点斜式:y−y1=k(x−x1)y - y_1 = k(x - x ...

最新文章

  1. 整人之bat重启文件
  2. 贼好用的 Java 工具类库,GitHub 星标 10k+,你在用吗?
  3. ubuntu16.04安装UR3/UR5/UR10机械臂的ROS驱动并实现gazebo下Moveit运动规划仿真以及真实UR3机械臂的运动控制(3)
  4. docker 容器安装conposer_Docker下用composer国内镜像安装Laravel
  5. hack 入侵 142 主机的过程
  6. JS_Java_Oracle_MySQL截取字符串的函数
  7. java多字段排序,java8 stream多字段排序的实现
  8. 聊一聊 RestTemplate
  9. Interlocked原子访问系列函数
  10. Python 猜数字游戏
  11. HDU 2604 Queuing(矩阵高速幂)
  12. Vue事件处理_vue的事件处理超级方便_功能强大---vue工作笔记0011
  13. 中国农业种植施肥机械行业市场供需与战略研究报告
  14. 正则表达式验证IP和端口格式的正确性
  15. 浅析人工智能自然语言生成定义
  16. ExtJs基础知识总结:自定义弹窗和ComboBox自动联想加载(四)
  17. 复制百度文库及其他收费文档的方法
  18. java扩展类库_Java 类库和常用类库
  19. 【ORACLE】详解oracle数据库UTL_ENCODE包各个函数的模拟算法
  20. 蓝牙耳机能否用于台式计算机,为什么台式机不能连接蓝牙耳机?只要它就可以实现!-蓝牙耳机怎么连接电脑...

热门文章

  1. Modest Maps (Maps API) 卫星地图浏览
  2. selenium之xpath定位详解
  3. mysql blackhole缺点_MySQL BLACKHOLE存储引擎_编程学问网
  4. php qq分享内容到指定qq,分享内容到新浪微博|腾讯微博|qq空间
  5. 全能科研利器---新一代GPU超级计算平台配置方案
  6. java死锁简单案例
  7. java assertthat_JUnit4学习笔记(三):assertThat语法与Matcher
  8. TCL科技快扛不住了
  9. Fading out siblings on hover in CSS
  10. 媒体邀约企业邀请媒体记者参加展览展会采访专访