1、什么是过拟合?

过拟合是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。

2、过拟合带来什么问题?

最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。

3、过拟合产生的原因?

在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计;

权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征。

随着模型训练的进行,模型的复杂度会增加,此时模型在训练集上的训练误差会逐渐减小,但在模型的复杂度达到一定程度时,模型在验证集上的误差反而随着模型的复杂度增加而增大,此时便发生了过拟合现象。

4、如何解决过拟合问题?

  • Early stopping

  对模型进行训练的过程即是对模型的参数进行学习更新的过程,往往会用到一些迭代方法,如梯度下降学习算法,Early stopping便是一种迭代次数截断的方法来防止过拟合的方法,在模型对训练集迭代收敛之前停止迭代来防止过拟合。

  具体做法:

  在每一个Epoch结束时(一个Epoch集为对所有的训练数据的一轮遍历)计算validation data 的accuracy,当accuracy不再提高时,就停止训练,在训练的过程中,记录目前为止最好的validation accuracy,当连续10次Epoch(或者更多次)没达到最佳accuracy时,则停止迭代。

  • 数据集扩增

  这是解决过拟合最有效的方法,只要给足够多的数据,让模型尽可能多的适应【例外情况】,就会不断修正参数,得到更好的结果。

从数据源获取更多数据;根据当前数据集估计数据分布参数,使用该分布产生更多数据(一般不用,或引入抽样误差);数据增强,通过一定规则扩充数据,如在物体分类问题里,物体在图像中的位置、姿态、尺度、图片明暗度等都不会影响分类结果,可以通过图像平移、翻转、缩放等扩充数据。

  • 正则化:在神经网络计算损失值的过程中,在损失后面再加一项。

  当欠拟合时,希望它对模型误差的影响越小越好,以便模型快速拟合实际。

  当过拟合时,希望它对模型误差的影响越大越好,以便让模型不要产生过拟合的情况。

引出两个范数L1和L2

  L1:所有学习参数w的绝对值的和

  L2:所有学习参数w的平方和然后求平方根

在计算损失函数时加上正则项,减少特征量的权值,减少方差,避免某些参数值过大即过于“依赖”某些神经元,

  • dropout

  dropout在深度学习网络的训练过程中,多余神经网络单元,按照一定的概率将其暂时兄网络中丢弃。

  训练网络的每个单元要添加一道概率流程:

在每次模型中忽略一些节点的数据学习,将小概率的异常数据获得学习的机会降低,这样这些异常数据对模型的影响就会更小了。keep_prob:保持率,如果为1,则代表全部进行学习。

dropout改变了神经网络的网络结构,它仅仅是属于训练时的方法,所以一般再进行测试时要将dropout的keep_prob变为1,代表不需要进行丢弃,否则会影响模型的正常输出。

转载于:https://www.cnblogs.com/wyx501/p/10535990.html

过拟合怎么产生的?防治措施?相关推荐

  1. 滑坡泥石流的防御措施_泥石流防治措施

    一.什么是泥石流 泥石流是山区沟谷中,由暴雨.冰雪融化等水源激发的.含有大量泥沙石块的特殊洪流.其特征往往突然暴发,浑浊的流体沿着陡峻的山沟前推后拥.奔腾咆哮而下,地面为之震动,山谷犹如雷鸣,在很短时 ...

  2. 弧焊机器人断弧_焊接机器人技术宝典之焊接技术缺陷分析及防治措施(1)

    在工业生产上,焊接机器人得到普及使用,那么设备焊接时,需要了解哪些焊接缺陷?一篇焊接机器人技术宝典之焊接技术缺陷分析及防治措施告诉你想知道的. 一.焊接缺陷的分类 焊接缺陷的种类很多,按其在焊缝中所处 ...

  3. 未能完成该操作pkdownloaderror错误8_工地试验室检测操作质量通病防治措施,不能不当一回事...

    第一部分:表观特征 (一)水泥检测 1.抗压试验时水泥试件中心与夹具压板受压中心允许偏差超标. 2.盛水容器未润湿,搅拌锅擦拭过干或过湿,加水量偏离规范要求. 3.试模涂油过多或过少,过多引起试模表面 ...

  4. 计算机病的防治措施,如何预防电脑病,电脑病的护理措施_疾病查询_39疾病百科...

    一.改善工作环境 1.腰背保健: 办公室椅子最好选择有背靠.油压及有滚轴设计.椅子有背靠,如坐位太深,可加上背垫承托腰背,令腰背保持正常的弧度,减低脊椎及肌肉所承受的压力.椅子有油压设计,可以调校座位 ...

  5. 2022-2028年中国大气污染防治产业投资分析及前景预测报告

    [报告类型]产业研究 [报告价格]¥4500起 [出版时间]即时更新(交付时间约3个工作日) [发布机构]智研瞻产业研究院 [报告格式]PDF版 本报告介绍了中国大气污染防治行业市场行业相关概述.中国 ...

  6. 计算机病毒的防治 教案,计算机病毒及防治教案

    广教版,高一,信息技术必修 教学案例 一. 科目:信息技术基础:课题:计算机病毒及防治 二. 课时安排:1课时(45分钟) 三. 教材分析 本节课的教学内容选自广东教育出版社.高中课程标准实验教材信息 ...

  7. iframe内联元素有白边原因_必看|番茄卷叶病发生的原因以及防治方法!

    点击上方蓝色,关注我,学习更多农业知识 番茄在种植过程中,会发生各种病虫害现象,影响西红柿质量和产量,其中西红柿卷叶病在西红柿种植中非常常见.番茄卷叶只是病症的外在表现,是作物应对不良环境或生物危害所 ...

  8. 【渝粤题库】国家开放大学2021春3608矿井水害防治题目

    试卷代号:3608 2021年春季学期期末统一考试 矿井水害防治 试题 2021年7月 一.单项选择题(本题型共10题,每题3分,共30分.以下各题每题只有一个正确答案,将正确答案的代号填入题中的括号 ...

  9. 楼层钢筋验收会议纪要_钢筋施工质量通病防治

    一.钢筋原材 1.钢筋表面出现黄色浮锈,严重转为红色,日久后变成暗褐色,甚至发生鱼鳞片剥落现象. 图片 原因 保管不良,受到雨雪侵蚀,存放期长,仓库环境潮湿,通风不良. 防 治 措 施 1.钢筋原料应 ...

最新文章

  1. 人工智能、大数据的广泛应用,算法推荐如何守好边界
  2. FSAF目标检测2019
  3. LYVC揭秘硅谷核心基金圈投资游戏规则
  4. POJ1321(棋盘问题)
  5. 〖Windows〗Linux的Qt程序源码转换至Windows平台运行,编码的解决
  6. 谷粒商城RabbitMQ设计思想详解:消息队列双重保险设计
  7. 5.7和5.6的mysql_mysql5.6和5.7的区别
  8. java webservice 线程_编程实践笔记{Java 线程 并发处理 Webservice}
  9. python之叠加两个图片
  10. 前端获取后端16位主键id,后3位四舍五入
  11. C++软件调试与异常排查从入门到精通系列汇总
  12. php过滤文本中的手机号,座机号,qq,邮箱地址
  13. 机器学习中用到的概率知识_学习机器学习前,你首先要掌握这些概率论基础知识...
  14. iOS城市选择器-包含搜索功能
  15. 图的点连通度边连通度总结
  16. 浏览器-清理页面中js的缓存
  17. 字符流的相关概念和相关方法的使用、IO异常的处理以及Properties属性集
  18. hbuilderx代码自动补全_HBuilderX代码提示系统说明
  19. Linux:解压bz2文件
  20. LNMP架构搭建(源码编译)

热门文章

  1. MaskFusion:惊艳的结合实例感知、语义分割、动态追踪的SLAM系统
  2. Python爬虫速度很慢?并发编程了解一下吧
  3. Java跟踪对象,使用OpenCV实时隔离和跟踪多个对象?
  4. 新模型!Conformer!Transformer与CNN的超强融合!
  5. enum java 比较_Kotlin与Java比较:枚举类
  6. windows 安装tensorflow
  7. 大学生学图像处理计算机要求,重点大学计算机教材:数字图像处理
  8. matlab 正则化表达式_MATLAB 正则表达式(一)(转)
  9. 设计一个可以变换的c语言图案,关于图形和变换专题的数学试题
  10. malloc开辟的空间在哪一个区间_专业指南 | 室内设计和空间设计区别,到底该选哪一个?...