转载自:http://blog.csdn.net/lsldd/article/details/41251583

做回归分析,常用的误差主要有均方误差根(RMSE)和R-平方(R2)。

RMSE是预测值与真实值的误差平方根的均值。这种度量方法很流行(Netflix机器学习比赛的评价方法),是一种定量的权衡方法。
””’ 均方误差根 ”’
def rmse(y_test, y):
return sp.sqrt(sp.mean((y_test - y) ** 2))

R2方法是将预测值跟只使用均值的情况下相比,看能好多少。其区间通常在(0,1)之间。0表示还不如什么都不预测,直接取均值的情况,而1表示所有预测跟真实结果完美匹配的情况。
””’ 与均值相比的优秀程度,介于[0~1]。0表示不如均值。1表示完美预测. ”’
def R2(y_test, y_true):
return 1 - ((y_test - y_true)**2).sum() / ((y_true - y_true.mean())**2).sum()

本例中使用一个2次函数加上随机的扰动来生成500个点,然后尝试1、2、100次方的多项式对该数据进行拟合。拟合的目的是使得根据训练数据能够拟合出一个多项式函数,这个函数能够很好的拟合现有数据,并且能对未知的数据进行预测,拟合结果如下:

1次项系数:[-0.16140183 0.99268453] rmse=0.13, R2=0.82, R22=0.58, clf.score=0.82
2次项系数:[ 0.00934527 -0.03591245 1.03065829] rmse=0.11, R2=0.88, R22=0.66, clf.score=0.88
100次项:rmse=0.10, R2=0.89, R22=0.67, clf.score=0.89

过拟合

使用100次方多项式做拟合,效果确实是高了一些,然而该模型的据测能力却极其差劲,模型产生了过拟合。
而且注意看多项式系数,出现了大量的大数值,甚至达到10的12次方。
将500个样本中的最后2个从训练集中移除。然而在测试中却仍然测试所有500个样本,拟合结果如下:

1次项系数:[-0.17933531 1.0052037 ] rmse=0.12, R2=0.85, R22=0.61, clf.score=0.85
2次项系数:[-0.01631935 0.01922011 0.99193521] rmse=0.10, R2=0.90, R22=0.69, clf.score=0.90
100次项:rmse=0.21, R2=0.57, R22=0.34, clf.score=0.57
仅仅只是缺少了最后2个训练样本,红线(100次方多项式拟合结果)的预测发生了剧烈的偏差,R2也急剧下降到0.57。

这说明高次多项式过度拟合了训练数据,包括其中大量的噪音,导致其完全丧失了对数据趋势的预测能力。前面也看到,100次多项式拟合出的系数数值无比巨大。人们自然想到通过在拟合过程中限制这些系数数值的大小来避免生成这种畸形的拟合函数。

其基本原理是将拟合多项式的所有系数绝对值之和(L1正则化)或者平方和(L2正则化)加入到惩罚模型中,并指定一个惩罚力度因子w,来避免产生这种畸形系数。

这样的思想应用在了岭(Ridge)回归(使用L2正则化)、Lasso法(使用L1正则化)、弹性网(Elastic net,使用L1+L2正则化)等方法中,都能有效避免过拟合,下面使用L2正则化岭回归拟合结果:

回归评价指标:均方误差根(RMSE)和R平方(R2)相关推荐

  1. 【机器学习】回归评价指标---MSE、RMSE、MAE、R-Squared

    分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE.R-Squared. MSE和MAE适用于误差相对明显的时候,大的误差也有比较高的权重,RMSE则是针对误差不是很明显的 ...

  2. 回归评价指标MSE、RMSE、MAE、MAPE及python实现

    文章目录 回归评价指标公式 MSE RMSE MAE MAPE python实现 numpy sklearn 回归评价指标公式 假设: 预测值:y^={y1^,y2^,-,yn^}\hat{y}=\{ ...

  3. 关于各种回归评价指标MSE、RMSE、MAE、R-Squared、Standard Deviation(标准差)

    分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE.R-Squared.下面一一介绍: 1.均方误差(MSE) MSE (Mean Squared Error)叫做均方误差 ...

  4. 回归评价指标MSE、RMSE、MAE、R-Squared

    前言 分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE.R-Squared.下面一一介绍 均方误差(MSE) MSE (Mean Squared Error)叫做均方误差 ...

  5. 回归评价指标---MSE、RMSE、MAE、R-Squared

    分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE.R-Squared. MSE和MAE适用于误差相对明显的时候,大的误差也有比较高的权重,RMSE则是针对误差不是很明显的 ...

  6. plor 回归的r方_【回归分析】R、R平方与调整后的R平方

    原标题:[回归分析]R.R平方与调整后的R平方 回归分析,是对两个或两个以上变量之间的因果关系进行定量研究的一种统计分析方法.回归分析,也是我们进行需求预测常用的一种因果建模方法. 我们做回归分析时, ...

  7. 回归模型评价指标:MSE、RMSE、MAE、R2 score

    回归模型评价指标:MSE.RMSE.MAE. R 2 R^2 R2 score 回归模型评价指标:MSE.RMSE.MAE.R2 score 前言 平均绝对误差(MAE) 均方误差(MSE) 均方根误 ...

  8. 回归评价指标:MSE、RMSE、MAE、R2、Adjusted R2

    我们通常采用MSE.RMSE.MAE.R2来评价回归预测算法. 1.均方误差:MSE(Mean Squared Error) 其中,为测试集上真实值-预测值. 2.均方根误差:RMSE(Root Me ...

  9. 回归问题的评价指标 MAE MSE RMSE R2 score Adjusted R2 score 和 重要知识点总结

    除了MSE 和MAE外回归还有什么重要的指标吗? R2 score & Adjusted R2 score 我们用一个回归问题来介绍这些指标,我们的其中输入是工作经验,输出是薪水.下图显示了为 ...

最新文章

  1. OC指示符assign、atomic、nonatomic、copy、retain、strong、week的解释
  2. 用户开始接纳虚拟化双厂商策略
  3. python数学表达式_Python入门笔记——(1)数字与表达式
  4. 显示屏连接控制卡超时_小间距led显示屏的安装步骤
  5. .NET开发人员如何开始使用ML.NET
  6. SQL数据库中临时表、临时变量和WITH AS关键词创建“临时表”的区别
  7. 查看、关闭当前服务器上启动服务 / 进程
  8. 人工智能在线特征系统中的生产调度
  9. js 即时上传php_php+js实现异步图片上传实例分享
  10. java xml 空节点_java:利用xpath删除xml中的空节点
  11. 卧槽,入职 3 天就“偷”代码,备份 6300 个 Python 脚本,不讲武德啊
  12. Computer Viruses
  13. 《我要飞,永远都不会累 》---伤感留言
  14. 如何成为一名合格的数据产品经理?
  15. 四个福利性在线网站分享,每一个都让你欲罢不能……
  16. 【面试】Js面试题(一)
  17. 火狐浏览器怎么打开oracle,firefox火狐浏览器点击没响应,该怎么解决?
  18. 收深圳2022年的高新技术企业(软件开发)
  19. SWPU NSS新生赛(校外通道)
  20. c++小游戏大合集(1)

热门文章

  1. 企业级服务器固态硬盘,普通SSD与企业SSD的区别_Intel服务器CPU_企业存储技术与评测-中关村在线...
  2. net-java-php-python-高校新生报到管理系统计算机毕业设计程序
  3. 360度无死角 | Pulsar与Kafka对比全解析
  4. css 铺满父元素的最好用的一种方式
  5. 数据结构之字典树Trie
  6. LeetCode 208 实现 Trie (字典树)
  7. P15-Windows与网络基础-NTFS权限规则
  8. nc文件利器,NASA的panoply软件,适于看nc文件内容以及简单的绘图
  9. Nginx之配置https/wss
  10. 迅雷创始人程浩:流量、资本红利已成过去式,中国互联网下一个十年属于……