机器学习中造成过拟合的原因可能有以下几点:

(1)数据有噪声

(2)训练数据不足,有限的训练数据

(3)训练模型过度导致模型非常复杂

防止过拟合的方法:

1.提前停止:

对模型进行训练的过程即是对模型的参数进行学习更新的过程,这个参数学习的过程往往会用到一些迭代方法,如梯度下降(Gradient descent)学习算法。Early stopping便是一种迭代次数截断的方法来防止过拟合的方法,即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。 
  Early stopping方法的具体做法是,在每一个Epoch结束时(一个Epoch集为对所有的训练数据的一轮遍历)计算validation data的accuracy,当accuracy不再提高时,就停止训练。这种做法很符合直观感受,因为accurary都不再提高了,在继续训练也是无益的,只会提高训练的时间。那么该做法的一个重点便是怎样才认为validation accurary不再提高了呢?并不是说validation accuracy一降下来便认为不再提高了,因为可能经过这个Epoch后,accuracy降低了,但是随后的Epoch又让accuracy又上去了,所以不能根据一两次的连续降低就判断不再提高。一般的做法是,在训练的过程中,记录到目前为止最好的validation accuracy,当连续10次Epoch(或者更多次)没达到最佳accuracy时,则可以认为accuracy不再提高了。此时便可以停止迭代了(Early Stopping)。这种策略也称为“No-improvement-in-n”,n即Epoch的次数,可以根据实际情况取,如10、20、30……

2.正则化

3.减小模型复杂度

4.数据集扩充:

数据挖掘领域流行着这样的一句话,“有时候往往拥有更多的数据胜过一个好的模型”。因为我们在使用训练数据训练模型,通过这个模型对将来的数据进行拟合,而在这之间又一个假设便是,训练数据与将来的数据是独立同分布的。即使用当前的训练数据来对将来的数据进行估计与模拟,而更多的数据往往估计与模拟地更准确。因此,更多的数据有时候更优秀。

通俗得讲,数据机扩增即需要得到更多的符合要求的数据,即和已有的数据是独立同分布的,或者近似独立同分布的。一般有以下方法:

  • 从数据源头采集更多数据
  • 复制原有数据并加上随机噪声
  • 重采样
  • 根据当前数据集估计数据分布参数,使用该分布产生更多数据等

5.dropout

6.集成的方法

参考:

机器学习,周志华

深度学习

https://blog.csdn.net/m0_37870649/article/details/79781993

http://www.360doc.com/content/18/0805/10/11935121_775819522.shtml

机器学习:防止模型过拟合的方法相关推荐

  1. 防止模型过拟合的方法汇总

    kaggle竞赛宝典 作者:Poll 防止模型过拟合的方法汇总 其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作.在算法中使用正则化的目的是防止模型出现过拟 ...

  2. 机器学习中防止过拟合的方法总结

    来自机器学习成长之路公众号 在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计的时候,或者在对模型进行过度训练(overtraining)时,常常会导致模型的过拟合(o ...

  3. 机器学习防止模型过拟合的讲解

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Poll,编辑:深度学习这件小事 来源 | http://www. ...

  4. 收藏 | 机器学习防止模型过拟合

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达    目录 LP范数 L1范数 L2范数 L1范数和L2范数的区别 ...

  5. 机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探...

    1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...

  6. 防止模型过拟合的必备方法!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Mahitha,来源:机器之心 正如巴菲特所言:「近似的正确好过精 ...

  7. 如何防止我的模型过拟合?这篇文章给出了6大必备方法

    选自Medium 作者:Mahitha Singirikonda 机器之心编译 编辑:小舟 正如巴菲特所言:「近似的正确好过精确的错误.」 在机器学习中,过拟合(overfitting)会使模型的预测 ...

  8. 机器学习中防止过拟合的处理方法

    原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49429629 防止过拟合的处理方法 过拟合   我们都知道,在进行数据 ...

  9. 机器学习中用来防止过拟合的方法有哪些?

     机器学习中用来防止过拟合的方法有哪些? 雷锋网(公众号:雷锋网)按:本文作者 qqfly,上海交通大学机器人所博士生,本科毕业于清华大学机械工程系,主要研究方向机器视觉与运动规划,会写一些好玩的 ...

最新文章

  1. java exif_照片EXIF信息的读取和改写的JAVA实现
  2. go的异常处理,defer,panic,recover
  3. dedecms 页面无刷新调取
  4. mysql主从复制延时性问题_MySQL主从同步延迟原因及解决办法
  5. Python实现 灰色关联分析 与结果可视化
  6. me shy是什么歌 抖音make_内含活动福利 | 小红书、抖音爆赞的高颜值的北欧家居神店开到卜蜂中心啦!...
  7. web前端开发——HTML学习
  8. docker 与宿主共享文件
  9. 【Oracle】Oracle中使用转义字符
  10. LINQ简记(3):子句
  11. 二、运行盛派的Demo(看下效果)
  12. 遗传算法GA原理详解及实例应用 附Python代码
  13. php网页qq客服代码,qq客服代码,网页QQ在线客服代码
  14. java基于t-io框架实现区块链中的p2p网络构建模拟区块信息同步
  15. html按钮圆弧样式,几款不错的按钮样式汇总
  16. 云桌面简介,IDV和VDI,桌面虚拟化对比
  17. 我和宁夏日报 【白述礼】
  18. android头像相册/拍照选取,裁剪及上传综合案例
  19. 论文工具大全+软件简介
  20. C++三目运算符(简述)

热门文章

  1. 威斯康星大学麦迪逊分校计算机专业排名,威斯康星大学麦迪逊分校的计算机专业如何?...
  2. python在银行的应用案例_银行风控案例(python)
  3. python采用那种编程模式_使用Mixin设计模式进行Python编程的方法讲解
  4. 项目周期一般多久_办公家具定制的特殊性是需要一定的制作周期
  5. vue中子组件向父组件传递数据(实现加减的实例)
  6. unity发布成手机app怎么不能被顶_Unity中Android API 28之后无法HTTP请求
  7. 授人以鱼不如授人以渔——CPU漏洞的Symantec解决之道
  8. Scatec Solar拟在乌克兰建设60MW光伏电站
  9. 前端开发学习的基础网站
  10. reverseajax(comet) socket 杂记