训练数据不足的情况下会带来什么问题,如何缓解?

  • 数据不足会带来什么问题
  • 如何解决 ?

数据不足会带来什么问题

机器学习任务的问题,可以简单的理解成寻找最佳的拟合函数和最佳的泛化函数,拟合函数是用来学习历史信息的,泛化函数是用来外推其他数据的(即,预测未来)。但是这两者并不是可以兼得的,我们前期通过先验知识来学习函数,后期通过后验知识来预测标签。

在机器学习中, 绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习) , 然而在实际应用中经常会遇到训练数据不足的问题。

当训练数据不足时候,就是巧妇难为无米之炊,说明模型从原始数据中获取的信息比较少, 这种情况下要想保证模型的效果, 就需要更多先验信息。

**训练数据不足带来的问题主要表现在过拟合方面,即模型在训练样本上的效果可能不错, 但在测试集上的泛化效果不佳。**因此说明拟合函数并没有很好的泛化能力,也就是没有充分的学习数据。

如何解决 ?

解决的办法主要是分为两个方面:

  1. 模型上: 主要是采用降低过拟合风险的措施, 包括:
  • 简化模型(如将非线性模型简化为线性模型) 、
  • 添加约束项以缩小假设空间(如L1/L2正则项)、
  • 集成学习、
  • Dropout超参数等
    注意:针对NN模型而言,使用BN层并不能解决过拟合问题,可以缓解和降低过拟合,因为**BN层的作用是来对数据进行标准化操作,这种标准化是为了解决梯度爆炸和梯度消失的问题,**是将批次的数据强行的拉到同一分布,(书上写的是: 该操作可以是模型学习到各层输入的最佳缩放和均值,同时也可以重新缩放和偏移每个特征 )。
  1. 数据上:通过数据扩充(Data Augmentation) , 即根据一些先验知识, 在保持特定信息的前提下, 对原始数据进行适当变换以达到扩充数据集的效果。举例:
  • 过采样
  • 增加噪声 ,如高斯白噪声等。
  • 图像的话,还可以进行几何变换(平移,缩放,裁剪等),颜色变换,色调和清晰度变换等
  • 使用预训练模型 + fine-tune(微调)
  • 使用生成模型,直接生成样本

百面机器学习 -- No.2 特征工程 -- 训练数据不足的情况下会带来什么问题,如何缓解?相关推荐

  1. 《百面机器学习》笔记-特征工程相关面试题

    https://www.toutiao.com/a6690498502436323854/ 2019-05-13 21:15:03 1. 什么是特征工程 对数据进行一系列处理构成特征输入给模型 例如, ...

  2. 机器学习笔记六——特征工程之数据预处理

    特征工程之数据预处理 1. 处理缺失值 2. 处理异常值 2.1 异常值检测 2.2异常值处理 3.离散特征的连续化处理 4.连续特征的离散化处理 5. 处理类别不平衡问题 6. 图片数据扩充 数据预 ...

  3. 百面机器学习——第一章特征工程

    特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用.从本质上来讲,特征工程是一个表示和展现数据的过程.在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的 ...

  4. 百面机器学习第一章——特征工程(基本是百面机器学习书的内容)

    02.类别型特征 ------------------------------------------ 场景描述 类别型特征(Categorical Feature)主要是指性别(男.女).血型(A. ...

  5. 机器学习实战之特征工程

    机器学习实战与特征工程 1.机器学习概述 1.1 什么是机器学习 1.2 为什么要机器学习 1.3 机器学习应用场景 1.4 学习框架和资料的介绍 2.特征工程 2.1 特征工程介绍 2.1.1 数据 ...

  6. 机器学习中的特征工程——分类变量的处理

    出品 | CDA数据分析研究院,转载需授权 文章目录 分类变量 概念 判断 类型 少类别分类变量处理方法 独热编码(One-hot encoding) 虚拟编码(Dummy coding) 效应编码( ...

  7. 机器学习中的特征工程

    机器学习中的特征工程 什么是特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...

  8. 机器学习实战——特征工程之数据预处理

    机器学习实战的特征工程主要包含数据预处理.特征构建.特征选择三步,首先来介绍数据预处理. 我选择python作为工具,并将主要用到pandas.numpy等数据工具库.加载库: import pand ...

  9. 特征工程之数据预处理(下)

    机器学习入门系列(2)–如何构建一个完整的机器学习项目,第四篇! 该系列的前三篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之 ...

最新文章

  1. JS中eval处理JSON数据 为什么要加括号
  2. mongodb 导出到sqlserver_迁移sqlserver数据到MongoDb的方法
  3. C++默认构造函数的一点说明
  4. ITK:Sobel边缘检测图像滤镜
  5. SCRUM与XP区别
  6. 【HDU - 1013 】Digital Roots (大数模拟)
  7. 10大反直觉的数学结论
  8. (Python)零起步数学+神经网络入门
  9. 大数据可视化模板、模板框架、动态控件、可视化大数据原型、监控平台、图表元件库、数据看板、驾驶舱、统计图表、大数据驾驶舱、大屏展示、联勤治理、旅游、运输、车辆、校园、舆情、信息监测看板原型
  10. 将android界面背景设置为黑色
  11. HTTP协议——学习资料小结
  12. 你还在用HTTP吗?HTTP/3都来了。。。
  13. Maven相关jar包安装
  14. kettle 数据库密码解密
  15. python基础教程doc_python基础教程之Word Cloud (词云) - Python|python基础教程|python入门|python教程...
  16. python14张图下载_Python网络爬虫入门(三)—— 做个简陋的pixabay 图片下载器 (附源码)...
  17. Oracle数据库优化的方法
  18. 小技巧之chrome浏览器安装淘宝比价插件
  19. 以下是两段c语言代码 函数arith(),第二章习题-ddg.doc
  20. java——》Supplie

热门文章

  1. 中国荧光显微镜市场运营分析与投资前景规划建议报告2022年版
  2. sharepoint同步本地 linux,SharePoint迁移工具
  3. ERROR 2002 (HY000): Can’t connect to local MySQL server through socket 解决办法
  4. 利用python:物流公司获取某地点重型货车去往全国市县里程
  5. Linux挂载nfs存储
  6. 最全的AI插件Astute Graphics 2020全系列
  7. 使用py2exe打包含有numpy的文件出错的解决方法
  8. [VirtualBox][Wireshark]如何在虚拟机ubuntu系统中使用Wireshark
  9. 游戏研发面经汇总(C++语言,前部分贴上连接进行了解答)
  10. Java实现QQ邮件发送原理和实现