写在前面

均方误差,偏置和方差都是统计学中非常重要的概念。

均方误差MSE

对于机器学习来说,MSE一般是计算两个东西的MSE,一个是参数估计的MSE,一个是模型预测的MSE。我主要关注的是参数估计的MSE。

定义

参数估计的MSE定义为MSE=Eθ[(θ^−θ)2]MSE = E_\theta[(\hat{\theta}-\theta)^2]MSE=Eθ​[(θ^−θ)2],其中θ\thetaθ表示真值,θ^\hat{\theta}θ^表示预测值,EθE_\thetaEθ​并不是表示在θ\thetaθ的分布上求期望,而是关于似然函数的期望,即Eθ[(θ^−θ)2]=∫x(θ^−θ)2f(x;θ)dxE_\theta[(\hat{\theta}-\theta)^2]=\int_{x}(\hat{\theta}-\theta)^2f(x;\theta)dxEθ​[(θ^−θ)2]=∫x​(θ^−θ)2f(x;θ)dx
,可以理解为在所有观测值上求平均。

方差偏置分解

MSE可以进行分解:
MSE=Eθ[(θ^−θ)2]=Eθ[θ^2+θ2−2θ^θ]=Eθ[θ^2]−Eθ[θ^]2+Eθ[θ^]2+θ2−2θEθ[θ^]=Vθ[θ^]+(θ−Eθ[θ^])2MSE = E_\theta[(\hat{\theta}-\theta)^2] =E_\theta[\hat{\theta}^2+\theta^2-2\hat{\theta}\theta] \\= E_\theta[\hat{\theta}^2]-E_\theta[\hat{\theta}]^2+E_\theta[\hat{\theta}]^2+\theta^2-2\theta E_\theta[\hat{\theta}]\\=V_\theta[\hat{\theta}]+(\theta-E_\theta[\hat{\theta}])^2 MSE=Eθ​[(θ^−θ)2]=Eθ​[θ^2+θ2−2θ^θ]=Eθ​[θ^2]−Eθ​[θ^]2+Eθ​[θ^]2+θ2−2θEθ​[θ^]=Vθ​[θ^]+(θ−Eθ​[θ^])2
定义估计的偏置(偏差)为:bias=Eθ[θ^]−θbias = E_\theta[\hat{\theta}]-\thetabias=Eθ​[θ^]−θ
则上式进一步写为:
MSE=Vθ[θ^]+bias2MSE = V_\theta[\hat{\theta}]+bias^2MSE=Vθ​[θ^]+bias2

如果利用蒙特卡洛积分估计MSE这个期望:
Eθ[(θ^−θ)2]=∫x(θ^−θ)2f(x;θ)dx=1N∑i=1N(θ^i−θ)2E_\theta[(\hat{\theta}-\theta)^2]=\int_{x}(\hat{\theta}-\theta)^2f(x;\theta)dx\\= \frac{1}{N}\sum_{i=1}^{N}(\hat{\theta}_i-\theta)^2Eθ​[(θ^−θ)2]=∫x​(θ^−θ)2f(x;θ)dx=N1​i=1∑N​(θ^i​−θ)2其中,θ^i\hat{\theta}_iθ^i​是由第iii个数据估计得来。很多时候下,做机器学习的时候,我们都用这个均方误差来作为优化的目标。

无偏估计

当biasbiasbias为0的时候,该估计就是参数的无偏估计。
有时候,虽然估计是有偏的,但是当数据愈来愈多的时候,参数的估计能够依概率收敛到真实值上,称为相合:θ^→θ\hat{\theta}\rightarrow\thetaθ^→θ

最小二乘估计(OLS)的MSE

模型为:y=Xθ+ϵy = X\theta+\epsilony=Xθ+ϵ
多元最小二乘估计(多元高斯噪声最大似然估计)的解为:θ^=(XTX)−1XTy\hat{\theta}=(X^TX)^{-1}X^Tyθ^=(XTX)−1XTy
偏差为:E[(XTX)−1XTy]−θ=(XTX)−1XTE[y]−θ=(XTX)−1XTXθ−θ=θ−θ=0E[(X^TX)^{-1}X^Ty]-\theta\\=(X^TX)^{-1}X^TE[y]-\theta\\=(X^TX)^{-1}X^TX\theta-\theta\\=\theta-\theta=0E[(XTX)−1XTy]−θ=(XTX)−1XTE[y]−θ=(XTX)−1XTXθ−θ=θ−θ=0
若假设噪声的方差是σ2I\sigma^2Iσ2I,则估计量的方差是:
Vθ[(XTX)−1XTy]=(XTX)−1XT)Vθ[y](XTX)−1XT)T=σ2(XTX)−1V_\theta[(X^TX)^{-1}X^Ty]=(X^TX)^{-1}X^T)V_\theta[y](X^TX)^{-1}X^T)^T\\=\sigma^2(X^TX)^{-1}Vθ​[(XTX)−1XTy]=(XTX)−1XT)Vθ​[y](XTX)−1XT)T=σ2(XTX)−1

进一步,由方差-偏置分解可得MSE=0+trace(σ2(XTX)−1)=trace(σ2(XTX)−1)MSE=0+trace(\sigma^2(X^TX)^{-1})=trace(\sigma^2(X^TX)^{-1})MSE=0+trace(σ2(XTX)−1)=trace(σ2(XTX)−1)
这里使用trace是因为多元情形下方差是矩阵。

参数估计的均方误差(MSE),偏置(Bias)与方差(Variance)分解,无偏估计相关推荐

  1. 误差error,偏置bias,方差variance的见解

    更新日志:2020-3-10 谢谢@ProQianXiao的指正.偏差-方差的确是在测试集中进行的. 之前的误解是,偏差和方差的计算是同一个模型对不同样本的预测结果的偏差和方差:而实际上是不同模型对同 ...

  2. 吴恩达神经网络和深度学习-学习笔记-6-训练集、验证集和测试集 + 偏差bias和方差variance

    寻找最优超参数是一个迭代过程 在今天,应用深度学习是一个典型的迭代过程. 创建高质量的训练数据集.验证集和测试集,有助于提高循环效率. 训练集.验证集和测试集 数据Data分为三部分: 训练集trai ...

  3. 偏差(bias)、方差(variance)和噪音(noise)

    对于一个预测问题,若真实模型为f(x)f(\boldsymbol{x})f(x). 通常我们通过对特定的数据集D=(x1,y1),(x2,y2),-,(xn,yn)D = {(\boldsymbol{ ...

  4. 偏差bias与方差variance

    目录 1 含义 1.1 偏差 1.2 偏差和方差 2 期望泛化误差公式推导 3 权衡偏差与方差: 4 解决高偏差与高方差 参考 学习算法的预测误差, 或者说泛化误差(generalization er ...

  5. PCA均方误差(MSE)最小化和方差最大化的推导

    部分参考[https://zhuanlan.zhihu.com/p/77151308],结合自己的一些理解和统计学习方法,补充了一些推导过程) 一.方差的定义 ​ ​ Var(x)=1m∑i=1m(x ...

  6. 偏差(Bias)与方差(Variance)详解

    偏差与方差详解 1 问题背景 2 一点点数学 3 偏差与期望 4 偏差方差窘境 5 Bagging与Boosting 1 问题背景  NFL(No Free Lunch Theorem)告诉我们选择算 ...

  7. 残差平方和(RSS)、均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、标准差(SD)

    残差平方和(RSS) 统计学上把数据点与它在回归直线上相应位置的差异称为残差,把每个残差平方之后加起来 称为残差平方和(相当于实际值与预测值之间差的平方之和).它表示随机误差的效应.一组数据的残差平方 ...

  8. Python使用numpy包编写自定义函数计算均方误差(MSE、mean squared error)、评估回归模型和时间序列模型、解读MSE评估指标

    Python使用numpy包编写自定义函数计算均方误差(MSE.mean squared error).评估回归模型和时间序列模型.解读MSE评估指标 目录

  9. 均方误差——MSE 和标准差 的区别

    均方误差--MSE 参数估计值与参数真值之差平方的期望值; 均方根误差--RMSE 平均绝对误差--MAE 绝对误差的平均值 标准差 --SD MSE 机器学习 预测时 用,是看看预测的准不准. SD ...

  10. Matlab 计算均方误差MSE的三种方法

    Matlab 计算均方误差MSE的三种方法 数据说明: ytest 测试集y,真实的y值,是一维数组: ytest_fit 基于测试集 x 预测的y值,是一维数组: test_error 是预测误差. ...

最新文章

  1. Android跨进程通信一 Messenger
  2. HTML---HTML中常用的标签(标题,水平,特殊标签)
  3. spring boot高性能实现二维码扫码登录(上)——单服务器版
  4. java treeset比较,java中TreeSet的两种排序比较的方式
  5. python编程入门----numpy不常见的小细节
  6. python open文件被另一个进程打开怎么办,在Windows上,如何打开一个已经被另一个进程打开进行写入的文件?...
  7. 在SQL server中查找特定类别的列
  8. ApacheCN 翻译/校对/笔记整理活动进度公告 2019.10.18
  9. 1:MTK 6737 Flash配置
  10. Spark性能优化之-资源调优
  11. android 反编译 jadx,jadx gui下载 jadx(Android反编译gui工具) v0.6.1 官方版 下载-脚本之家...
  12. d3.js画金庸小说力导向图
  13. 计算机应用基础操作题答案,电大本科计算机应用基础网考操作题及答案
  14. matlab中函数imresize的使用介绍
  15. C++:引用类型(int )
  16. 服务器对接虚拟主机,服务器对接虚拟主机
  17. Linux添加第二IP地址,Centos 给网卡添加第二个 IP 地址
  18. 深度linux默认登录密码,不要询问Deepin系统的默认root密码了,以下是网友科普的知识...
  19. Homekit智能家居DIY之智能通断开关
  20. 关于RTL9210b固件升级问题及过程

热门文章

  1. Everybody wants to love and be loved
  2. ES2015简介和基本语法
  3. 微信小程序,仓库系统,可以扫描入库查询
  4. 华为人均工资70万人人想要,可华为员工16项标准你能做到几条?
  5. python实现链表的删除_手把手教你43行代码写红黑树(包括删除操作)
  6. 正则表达式前端js,银行卡号/身份证/姓名号脱敏
  7. 系统运维工程师必备面试题库
  8. 积雪草酸肌白蛋白纳米粒|野黄芩苷豆清白蛋白纳米粒|黄芩苷蓖麻蛋白纳米粒(齐岳)
  9. 做硬件,想当然,犯大错
  10. ZOJ3549 Little Keng(快速幂)