文章目录

  • 1、样本均值
  • 2、样本方差
  • 3、协方差
  • 4、相关系数
  • 5、 示例:数据集的相关系数计算

本文主要参考文献如下:
1、吴恩达CS229课程讲义。
2、(美)S.Chatterjee等,《例解回归分析》(第2章),机械工业出版社。
3、周志华. 《机器学习》3.2.清华大学出版社。
4、(美)P.Harrington,《机器学习实战》人民邮电出版社。

  由于数据处理经常需要计算样本的统计特性,这里我们首先对此进行讨论。

1、样本均值

  对于随机变量XXX,其均值mX=E(x)m_X={\rm E}(x)mX​=E(x),方差为σX2=E[(x−mX)2]\sigma_X^2={\rm E}[(x-m_X)^2]σX2​=E[(x−mX​)2]。设有XXX的样本{x1,x2,…,xn}\{x_1,x_2,\ldots,x_n\}{x1​,x2​,…,xn​},则样本均值
m^X=1n∑i=1nxi.(1)\tag{1} \hat m_X=\frac{1}{n}\sum_{i=1}^{n}x_i. m^X​=n1​i=1∑n​xi​.(1)

可以证明,m^x\hat m_xm^x​是均值mxm_xmx​的无偏估计,即E[m^X]=mX{\rm E}[\hat m_X]=m_XE[m^X​]=mX​,证明如下:
E[m^x]=E[1n∑i=1nxi]=1n∑i=1nE[xi]=1n∑i=1nmX=mX.\begin{aligned} {\rm E}[\hat m_x]&={\rm E}\left[\frac{1}{n}\sum_{i=1}^{n}x_i\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}{\rm E}\left[x_i\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}m_X=m_X. \end{aligned} E[m^x​]​=E[n1​i=1∑n​xi​]=n1​i=1∑n​E[xi​]=n1​i=1∑n​mX​=mX​.​

2、样本方差

  对于随机变量XXX,其均值mX=E(x)m_X={\rm E}(x)mX​=E(x),方差为σX2=E[(x−mX)2]\sigma_X^2={\rm E}[(x-m_X)^2]σX2​=E[(x−mX​)2],样本方差
σ^X2=1n−1∑i=1n(xi−m^X)2.(2)\tag{2} \hat \sigma_X^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat m_X)^2. σ^X2​=n−11​i=1∑n​(xi​−m^X​)2.(2)

  我们来看为何上式中求样本方差时,为何对nnn项求和,却除以n−1n-1n−1呢?
  这主要是因为我们希望σ^X2\hat \sigma^2_Xσ^X2​是σX2\sigma_X^2σX2​的无偏估计,如果我们除以nnn,会遇到下面情况:
E[σ^X2]=E[1n∑i=1n(xi−m^X)2]=1nE[∑i=1n(xi−m^X)2]=1nE[∑i=1n(xi2+m^X2−2xim^X)]=E[1n∑i=1nxi2−m^X2]=1n∑i=1nE[xi2]−E[m^X2]=E[x2]−E[m^X2]=(E[x2]−mX2)−(E[m^X2]−mX2)=σX2−var[m^X2]\begin{aligned} {\rm E}\left[\hat \sigma_X^2\right]&={\rm E}\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat m_X)^2\right]\\ &=\frac{1}{n}{\rm E}\left[\sum_{i=1}^{n}(x_i-\hat m_X)^2\right]\\ &=\frac{1}{n}{\rm E}\left[\sum_{i=1}^{n}(x_i^2+\hat m_X^2-2x_i\hat m_X)\right]\\ &={\rm E}\left[\frac{1}{n}\sum_{i=1}^{n}x_i^2-\hat m_X^2\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}{\rm E}\left[x_i^2\right]-{\rm E}\left[\hat m_X^2\right]\\ &={\rm E}\left[x^2\right]-{\rm E}\left[\hat m_X^2\right]\\ &=({\rm E}\left[x^2\right]-m_X^2)-({\rm E}\left[\hat m_X^2\right]-m_X^2)\\ &=\sigma_X^2-{\rm var}[\hat m_X^2] \end{aligned} E[σ^X2​]​=E[n1​i=1∑n​(xi​−m^X​)2]=n1​E[i=1∑n​(xi​−m^X​)2]=n1​E[i=1∑n​(xi2​+m^X2​−2xi​m^X​)]=E[n1​i=1∑n​xi2​−m^X2​]=n1​i=1∑n​E[xi2​]−E[m^X2​]=E[x2]−E[m^X2​]=(E[x2]−mX2​)−(E[m^X2​]−mX2​)=σX2​−var[m^X2​]​由于var[m^X2]=var[1n∑i=1nxi]=1n2∑i=1nvar[xi]=σX2n\begin{aligned} {\rm var}[\hat m^2_X]&={\rm var}\left[\frac{1}{n}\sum_{i=1}^{n}x_i\right]\\ &=\frac{1}{n^2}\sum_{i=1}^{n}{\rm var}\left[x_i\right]\\ &=\frac{\sigma_X^2}{n} \end{aligned} var[m^X2​]​=var[n1​i=1∑n​xi​]=n21​i=1∑n​var[xi​]=nσX2​​​因此
E[σ^X2]=n−1nσX2\begin{aligned} {\rm E}\left[\hat \sigma_X^2\right]=\frac{n-1}{n}\sigma_X^2 \end{aligned} E[σ^X2​]=nn−1​σX2​​显然不是σX2\sigma_X^2σX2​的无偏估计。因此,我们将该估计进行修正,可以得到
E[σ^X2]=E[1n−1∑i=1n(xi−m^X)2]=1n−1E[∑i=1n(xi−m^X)2]=1n−1E[∑i=1n(xi2+m^X2−2xim^X)]=1n−1E[∑i=1nxi2−n⋅m^X2]=E[1n∑i=1nxi2−m^X2]=nn−1(E[x2]−E[m^X2])=σX2\begin{aligned} {\rm E}\left[\hat \sigma_X^2\right]&={\rm E}\left[\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat m_X)^2\right]\\ &=\frac{1}{n-1}{\rm E}\left[\sum_{i=1}^{n}(x_i-\hat m_X)^2\right]\\ &=\frac{1}{n-1}{\rm E}\left[\sum_{i=1}^{n}(x_i^2+\hat m_X^2-2x_i\hat m_X)\right]\\ &=\frac{1}{n-1}{\rm E}\left[\sum_{i=1}^{n}x_i^2-n\cdot\hat m_X^2\right]\\ &={\rm E}\left[\frac{1}{n}\sum_{i=1}^{n}x_i^2-\hat m_X^2\right]\\ &=\frac{n}{n-1}\left({\rm E}\left[x^2\right]-{\rm E}\left[\hat m_X^2\right]\right)\\ &=\sigma_X^2 \end{aligned} E[σ^X2​]​=E[n−11​i=1∑n​(xi​−m^X​)2]=n−11​E[i=1∑n​(xi​−m^X​)2]=n−11​E[i=1∑n​(xi2​+m^X2​−2xi​m^X​)]=n−11​E[i=1∑n​xi2​−n⋅m^X2​]=E[n1​i=1∑n​xi2​−m^X2​]=n−1n​(E[x2]−E[m^X2​])=σX2​​为无偏估计。

3、协方差

  下面我们来定义两个随机变量XXX和YYY的样本的协方差,这里假设XXX的样本为{x1,x2,…,xn}\{x_1,x_2,\ldots,x_n\}{x1​,x2​,…,xn​},YYY的样本为{y1,y2,…,yn}\{y_1,y_2,\ldots,y_n\}{y1​,y2​,…,yn​},则有
cov(X,Y)=∑i=1n(yi−m^Y)(xi−m^X)n−1.(3)\tag{3} {\rm cov}(X,Y)=\frac{\sum_{i=1}^{n}(y_i-\hat m_Y)(x_i-\hat m_X)}{n-1}. cov(X,Y)=n−1∑i=1n​(yi​−m^Y​)(xi​−m^X​)​.(3)

4、相关系数

  进一步,可以对两个随机变量进行标准化处理,得到XXX和YYY的相关系数为
cor(Y,X)=1n−1∑i=1n(yi−m^Yσ^Y)(xi−m^Xσ^X)=1n−1∑i=1n(yi−m^Y)(xi−m^X)σ^Yσ^X=∑i=1n(yi−m^Y)(xi−m^X)∑(xi−m^X)2∑(xi−m^X)2(4)\tag{4} \begin{aligned} {\rm cor}(Y,X)&=\frac{1}{n-1}\sum_{i=1}^{n}(\frac{y_i-\hat m_Y}{\hat\sigma_Y})(\frac{x_i-\hat m_X}{\hat \sigma_X})\\ &=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(y_i-\hat m_Y)(x_i-\hat m_X)}{\hat\sigma_Y \hat \sigma_X}\\ &=\frac{\sum_{i=1}^{n}(y_i-\hat m_Y)(x_i-\hat m_X)}{\sqrt{\sum(x_i-\hat m_X)^2 \sum(x_i-\hat m_X)^2}}\\ \end{aligned} cor(Y,X)​=n−11​i=1∑n​(σ^Y​yi​−m^Y​​)(σ^X​xi​−m^X​​)=n−11​i=1∑n​σ^Y​σ^X​(yi​−m^Y​)(xi​−m^X​)​=∑(xi​−m^X​)2∑(xi​−m^X​)2​∑i=1n​(yi​−m^Y​)(xi​−m^X​)​​(4)

注意相关系数的如下性质:

  1. cor(Y,X)=cor(X,Y){\rm cor}(Y,X)={\rm cor}(X,Y)cor(Y,X)=cor(X,Y)
  2. −1≤cor(Y,X)≤1-1\le {\rm cor}(Y,X) \le 1−1≤cor(Y,X)≤1
  3. 相关系数只能刻画变量间线性关系的强弱。
  4. 相关系数会受到数据中一个或者几个离群值的显著影响。

5、 示例:数据集的相关系数计算

  下面我们看个例子。我们计算下表中的四个数据集,分别计算相关系数,并画出散点图。

Matlab代码如下:

A=load('Data_Chap2_Anscombe.txt')
Cor_12=corrcoef(A(:,1),A(:,2))
Cor_34=corrcoef(A(:,3),A(:,4))
Cor_56=corrcoef(A(:,5),A(:,6))
Cor_78=corrcoef(A(:,7),A(:,8))
subplot(2,2,1)
scatter(A(:,2),A(:,1))
subplot(2,2,2)
scatter(A(:,4),A(:,3))
subplot(2,2,3)
scatter(A(:,6),A(:,5))
subplot(2,2,4)
scatter(A(:,8),A(:,7))

得到相关系数为

Cor_12 =1.0000    0.81640.8164    1.0000Cor_34 =1.0000    0.81620.8162    1.0000Cor_56 =1.0000    0.81630.8163    1.0000Cor_78 =1.0000    0.81650.8165    1.0000

  显然,尽管相关系数基本相等,但从下图散点图中可以看出,四组数据YYY与XXX的函数关系差别很大。因此在计算相关系数之前,考察散点图是非常有帮助的。

【从线性回归到BP神经网络】第一部分:协方差与相关系数相关推荐

  1. 机器学习(九)初识BP神经网络

    初识BP神经网络 原文地址:http://blog.csdn.net/hjimce/article/details/45457181 作者:hjimce 一.相关理论 因为BP神经网络的求解是用到了梯 ...

  2. BP神经网络(Back Propagation Neural Network)Matlab简单实现

    BP神经网络(Back Propagation Neural Network)Matlab简单实现 前言 简单了解反向传播(Backwarod Propagation)机制(链式法则) 实例分析 前向 ...

  3. 【机器学习算法】神经网络和深度学习-4 重要的BP网络使用总结,了解BP神经网络的魅力

    目录 BP神经网络需要注意的地方. 数值型字段的预处理方式 类别型字段的预处理方式: 目标字段的数据预处理: 实际案例 BP神经网络与逻辑回归.线性回归及非线性回归间的关系. BP神经网络的优缺点: ...

  4. BP神经网络的详细推导

    文章目录 概述 一.神经元模型 二.感知机与多层网络 三.误差逆传播算法 四.全局最小与局部最小 五.BP算法的改进 1.引入动量法 2.尺度变换法 3.自适应学习率调整法 六.BP神经网络的训练 1 ...

  5. bp神经网络数学建模论文,关于bp神经网络的论文

    1.第一篇提出BP神经网络的论文是哪一篇? 最初是86年,Rumelhart和McCelland领导的科学家小组在<平行分布式处理>一书中,对具有非线性连续变换函数的多层感知器的误差反向传 ...

  6. 神经网络笔记1-三层BP神经网络

    神经网络笔记1-三层BP神经网络 神经网络性质简介 信息正向传输 预期神经网络的获得 误差反向更新(输出层→隐藏层) 误差反向更新(隐藏层→输入层) 伪代码实现 训练函数 测试函数,用训练好的神经网络 ...

  7. BP神经网络在双色球彩票上的预测实验及实现

    人工智能和人工神经网络,提到这些可能有很多人都觉得很高深,很高级.但其实也有简单的,比如BP神经网络,就目前的人工神经网络发展看,除了深度学习算法的人工神经网络以外,应用最广泛的就是BP神经网络,BP ...

  8. 西瓜书研读——第五章 神经网络:BP神经网络

    西瓜书研读系列: 西瓜书研读--第三章 线性模型:一元线性回归 西瓜书研读--第三章 线性模型:多元线性回归 西瓜书研读--第三章 线性模型:线性几率回归(逻辑回归) 西瓜书研读--第三章 线性模型: ...

  9. bp神经网络和cnn神经网络,bp神经网络和cnn

    什么是BP神经网络? . BP算法的基本思想是:学习过程由信号正向传播与误差的反向回传两个部分组成:正向传播时,输入样本从输入层传入,经各隐层依次逐层处理,传向输出层,若输出层输出与期望不符,则将误差 ...

  10. 深度学习(1):BP神经网络实现银行客户流失预测

    目的:针对银行客户行为和统计数据实现客户流失预测任务. 一. 数据准备 1. 数据集: "select-data.csv"作为训练样本,数据预处理方式:归一化.数值化. Credi ...

最新文章

  1. 微信阅读原文直接打开浏览器_微信打开网址添加在浏览器中打开提示
  2. C语言函数参数压栈顺序为何是从右到左?
  3. 老男孩python21期作业_(禁闲聊)绘画讨论10个群第176期作业展示
  4. 创业思路(1) - 收藏夹分享平台
  5. http协议以及防盗链技术
  6. 如何像高级开发人员一样思考?
  7. Linux系统中使用netcat命令的奇技淫巧
  8. 检测 邮箱地址 是否存在[C#]
  9. Python: 组合管理与蒙特卡洛方法实现
  10. 如何让百度云里的资源不被和谐掉?
  11. 更改docker ip
  12. acme申请泛域名证书
  13. 正则限定开头和取反 (否)
  14. the little schemer 笔记(10)
  15. 维京小队3dm中文版|维京小队中文免安装版
  16. C语言实现七夕表白爱心
  17. 一大波苹果CMS系统主题来袭
  18. [笔记] PPT幻灯片也RIA——PPT实现倒计时功能
  19. 西游记中人物对应PMP项目管理中的角色分析
  20. 数据可视化ECharts:饼形图 1年龄分布模块制作

热门文章

  1. 案例 - 收藏集 - 掘金
  2. 分布式框架开发环境部署
  3. Linux 异步IO
  4. SQLite介绍及使用
  5. 车轮轨迹原理_倒车轮子原理是什么 倒车原理动画演示很有用
  6. 计算机外围设备哪两类,计算机原理2010年4月真题(02384)
  7. Python(二):基本数据类型、序列的基本操作
  8. admixture软件_使用ADMIXTURE进行群体结构分析
  9. 蓝桥杯 java 组素数_第四届蓝桥杯javaC组_组素数
  10. 计算机应用怎么写,计算机应用专业描述怎么写