摘要

数据分析中无处不在的知识点

SSE(和方差、误差平方和):The sum of squares due to error
MSE(均方差、方差):Mean squared error
RMSE(均方根、剩余标准差):Root mean squared error
R2R^2R2(判断系数,拟合优度):Coefficient of determination

定义

在统计学中,均方误差是参数估计值与参数真值之差平方的期望值,是衡量“平均误差”的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。

引言

方差

方差是在概率论和统计方差衡量随机变量或一组数据的离散程度的度量方式,方差越大,离散度越大。求解方式为,各随机变量与平均值差值的平方和的平均数
平均数:
M=x1+x2+x3+⋯+xnnM = \frac{x_1+x_2+x_3+\cdots+x_n}{n}M=nx1​+x2​+x3​+⋯+xn​​
方差公式:
S2=(x1−M)2+(x1−M)2+⋯+(xn−M)2nS^2 = \frac{(x_1-M)^2+(x_1-M)^2+\cdots+(x_n-M)^2}{n}S2=n(x1​−M)2+(x1​−M)2+⋯+(xn​−M)2​

标准差

标准差就是方差的算术平方根,它反映组内个体间的离散程度。因此它的过程是与平均值之间进行差值计算
标准差公式:
σ=1n∑i=1n(xi−μ)2\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}σ=n1​i=1∑n​(xi​−μ)2​

样本方差

σ^2=1n−1∑i=1n(xi−μ)2\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\mu)^2σ^2=n−11​i=1∑n​(xi​−μ)2

SSE(误差平方和)

在统计学里,该参数计算的是拟合数据很原始数据对应点的误差的平方和,计算公式为:
SSE=∑i=1m(yi−y^i)2SSE = \sum_{i=1}^m(y_i - \hat{y}_i)^2SSE=i=1∑m​(yi​−y^​i​)2
yiy_iyi​是真实数据,y^i\hat{y}_iy^​i​是拟合数据

MSE(方差)

是预测数据和原始数据对应点误差的平方和的均值,也就是SSEn−m\frac{SSE}{n-m}n−mSSE​,nnn是观测数据的个数,mmmj是拟合数据的个数,和SSESSESSE没有太大的区别,计算公式为:
MSE=SSEn−m=1n−m∑i=1n(yi−yi^)2MSE=\frac{SSE}{n-m}=\frac{1}{n-m}\sum_{i=1}^{n}(y_i-\hat{y_i })^2MSE=n−mSSE​=n−m1​i=1∑n​(yi​−yi​^​)2

RMSE(剩余标准差)

也是叫回归系统的拟合标准差,是MSEMSEMSE的平方根,计算公式为:
RMSE=MSE=1n−m∑i=1n(yi−yi^)2RMSE=\sqrt{MSE}=\sqrt{\frac{1}{n-m}\sum_{i=1}^{n}(y_i-\hat{y_i })^2}RMSE=MSE​=n−m1​i=1∑n​(yi​−yi​^​)2​

R2R^2R2(判断系数)

在讲判断系数之前,先介绍另外两个参数SSRSSRSSR和SSTSSTSST,因为判断系数就是由这两个参数决定的
对总平方和SST=∑i=1n(yi−y‾)2SST = \sum_{i=1}^{n}(y_i-\overline{y})^2SST=∑i=1n​(yi​−y​)2进行分解,有
SST=SSE+SSR,SSR=∑i=1n(yi^−y‾)2SST = SSE+SSR,SSR = \sum_{i=1}^{n}(\hat{y_i}-\overline{y})^2SST=SSE+SSR,SSR=i=1∑n​(yi​^​−y​)2
其中y‾=1n∑i=1nyi\overline{y} = \frac{1}{n}\sum_{i=1}^{n}y_iy​=n1​∑i=1n​yi​,SSESSESSE是误差平方和,反映随机误差对yyy的影响,SSRSSRSSR是回归平方和,反映自变量对yyy的影响
判断系数定义为
R2=SSRSST=SST−SSESST=1−SSESSTR^2 = \frac{SSR}{SST} = \frac{SST-SSE}{SST} = 1-\frac{SSE}{SST}R2=SSTSSR​=SSTSST−SSE​=1−SSTSSE​

调整的R2R^2R2

统计学家主张在回归建模时,就采用尽可能少的自变量,不要盲目地追求判定系数的提高。当变量增加时,残量的自由度就会减少。而自由度越小,数据的统计趋势就越不容易显现。为此,又定义了一个调整判断系数
R2‾=1−SSE/(n−m)SST/(n−1)\overline{R^2} = 1-\frac{SSE/(n-m)}{SST/(n-1)}R2=1−SST/(n−1)SSE/(n−m)​
R2‾\overline{R^2}R2与R2R^2R2的关系是
R2‾=1−(1−R2)n−1n−m\overline{R^2} = 1-(1-R^2)\frac{n-1}{n-m}R2=1−(1−R2)n−mn−1​
当nnn很小,mmm很大时,R2‾\overline{R^2}R2会远小于R2R^2R2

拟合和统计中的检验参数相关推荐

  1. 消解原理推理_什么是推理统计中的Z检验及其工作原理?

    消解原理推理 I Feel: 我觉得: The more you analyze the data the more enlightened, data engineer you will becom ...

  2. t检验自由度的意义_在统计中自由度是什么?

    大约一年前,一位读者问我是否可以试着解释自由度在统计学中的意义.从那时起,我一直在思考因为请求非常谨慎,像某种野兽,我不确定我是否可以安全地把它打倒在地. 自由度不容易解释,他们在统计中的一些先进和复 ...

  3. pandas使用groupby函数对dataframe进行分组统计、使用as_index参数设置分组聚合的结果中分组变量不是dataframe的索引(index)

    pandas使用groupby函数对dataframe进行分组统计.使用as_index参数设置分组聚合的结果中分组变量不是dataframe的索引(index) 目录

  4. 统计中的f检验和t检验的区别

    统计中的f检验和t检验的区别 参考:http://emuch.net/html/201102/2841741.html 首先是目的不同.F检验用于比较两种分析方法是否存在显著差异(单边检验)或者两种方 ...

  5. 统计中的p-value检验

    最近和一个老同学讨论统计中的p-value检验问题,其中涉及到为什么需要用p-value来做假设检验的判断依据,上网查到了一个很好的例子: 教室里四位同学将装了若干数量的白球和黑球的箱子放在了课桌上, ...

  6. python中fit内参数的类型_Python fit

    最新项目 logfit守护进程监视日志文件并将数据发送到logfit应用程序 用于分析. 安装 待办事项 用法 # Start in foreground mode python3 logfit/cl ...

  7. 在 R 中估计 GARCH 参数存在的问题

    目录 在 R 中估计 GARCH 参数存在的问题 GARCH 模型基础 估计 GARCH 参数 fGarch 参数估计的行为 结论 译后记 在 R 中估计 GARCH 参数存在的问题 本文翻译自< ...

  8. 2018.11:大数据在政府统计中的应用、瓶颈及融合路径(余芳东)

    内容摘要:应用大数据是未来政府统计发展的必然趋势.本文系统梳理当前政府统计应用大数据的基本类型,研究探索大数据统计应用实践和基本方法思路,剖析大数据统计应用面临的困难和瓶颈,提出推进大数据与政府统计工 ...

  9. 数理统计复习笔记一——统计中常用的抽样分布(卡方分布,t分布,F分布)

    前言:   总结一下数理统计中的基本概念,一些用python的实现在这里.不断持续更新. 1. 几个基本概念  1.1 次序统计量  1.2 样本偏度与样本峰度  1.3 经验分布函数  1.4 抽样 ...

  10. 二次拟合r方_拟合R语言中的多项式回归

    原标题:拟合R语言中的多项式回归 让我们看一个经济学的例子:假设你想购买一定数量q的特定产品.如果单价是p,那么你会支付总金额y.这是一个线性关系的典型例子.总价格和数量成正比. 如下所示: 但购买和 ...

最新文章

  1. 胡渊鸣的「太极图形」又融了5000万美元,接下来推出3D内容创作平台
  2. Response.Redirect() 跳转中的ThreadAbortException
  3. Python中maketrans和translate方法
  4. html修改原生checkbox选中的颜色_[三分钟小文]前端性能优化-HTML、CSS、JS部分
  5. 用 Go 编写一个简单的 WebSocket 推送服务
  6. python圣诞树编写实例详解
  7. Add NIC to Openfiler 2.3
  8. 四年级下册英语计算机房和教师办公室的图片,人教版四年级英语下册Unit 1单元知识梳理卷...
  9. 一次Mysql 死锁事故
  10. 【2019/02/18测试T3】飘雪圣域
  11. 在线小说网站的api和源码(有源码)
  12. APISpace 让你快速获取名言警句
  13. 多台S7-200Smart之间无线通讯例程
  14. 不用找,你想要的汽车壁纸素材都在这里
  15. MATLAB | 如何从热图中提取数据
  16. oracle数据库性能awr,Oracle数据库性能调优-AWR讲述详细分析指南之一
  17. 玻色量子与中国医科院药物研究所达成战略合作
  18. 电机控制系列-电磁学基础知识
  19. 协议分析实战:某航某凰知音用户名及密码提取
  20. ios自动化-Xcode、WebDriverAgent环境部署

热门文章

  1. 提取win11最新等线字体1.18制作的magisk模块,有常规,加粗,和细体三个字重。
  2. 信息安全工程师第二版教材主要章节内容
  3. Python操作Kafka例子
  4. 冰点文库下载器,文库免费下载(唯一可用的版)
  5. php数组中去掉空格,php数组如何去除空格
  6. 达内培训视频下载python
  7. 计算机硬盘如何安装系统,电脑硬盘怎么装系统
  8. 常用汉字3500——文字识别数据准备
  9. .aspx(或.asp)文件与.html(.htm)文件的区别与联系
  10. 孙策被刺杀,凶手是孔雀东南飞里的焦仲卿,主谋是曹操谋士郭嘉