观点1

是不同数据有不同定义,可分为空间/非空间数据。空间数据指空间上邻近的数据含有相关信息,可以用信号处理滤波的方法提取出这些相关信号,比如图像,声音。非空间数据指数据不是空间上的邻居,不能提取空间信息,比如身高,姓名,工作,收入等不相关信号。

对于空间信号,欠采样和过采样就是信号处理中的under-sample和over-sample。其中心思想是根据采样定理,数字信号能保存的最大频率是其采样频率的1/2。

  • 欠采样是采样频率小于信号最大频率的2倍,会有频谱的叠加,产生混叠。

  • 过采样是采样频率远大于信号最大频率的2倍,会增加计算量,在数字换模拟信号时,还会增加模拟噪声。

对于非空间信号,欠采样和过采样是对数据的down/sub-sample和up-sample,参考这里。其目的是调整数据量,或者做分类平衡(class balance)。

  • 欠采样:只想用少量数据代表大量的原始数据。比如k-means里用mean代表一簇数据。Random forest也可以认为是对数据点和特征做down-sample。

  • 过采样:生成新数据或重复采样。比如SMOTE,bootstrap。

观点2

过采样和欠采样是处理非平衡分类问题时的常用手段。

拿二元分类为例,如果训练集中阳性样本有1000个,阴性样本有10万个,两者比例为1:100严重失衡。为了一些模型的性能考虑,我们需要进行一些处理使得两者的比例尽可能接近。

过采样:对少的一类进行重复选择,比如我们对1000个阳性样本进行有放回的抽样,抽5万次(当然其中有很多重复的样本),现在两类的比例就变成了1:2,比较平衡。

欠采样:对多的一类进行少量随机选择,比如我们对10万个阴性样本进行随机选择,抽中2000个(当然原样本中很多样本未被选中),现在两类的比例就变成了1:2,比较平衡。

如果您觉得本文对您有帮助的话请点赞转发并关注。

两分钟带你彻底明白机器学习中的过采样和欠采样是什么意思?相关推荐

  1. 一文解决机器学习中的过拟合与欠拟合问题(正则化,数据增强,Dropout)

    一文解决机器学习中的过拟合与欠拟合问题(正则化,数据增强,Dropout,提前终止) 生活中的过拟合与欠拟合现象 过拟合与欠拟合的概念 解决过拟合与欠拟合问题的四大金刚 正则化 数据增强 Dropou ...

  2. 彻底分清机器学习中的上采样、下采样、过采样、欠采样【总结】

    今天看了篇中文的硕士论文,读着读着感觉有点奇怪,仔细一看原来他把下采样和欠采样搞混了,这里笔者就详细区分一下各个名称的概念. 文章目录 1. 上采样&下采样 2.过采样&欠采样 3.信 ...

  3. 机器学习算法 03 —— 逻辑回归算法(精确率和召回率、ROC曲线和AUC指标、过采样和欠采样)

    文章目录 系列文章 逻辑回归 1 逻辑回归介绍 1.1 逻辑回归原理 输入 激活函数 1.2 损失以及优化 2 逻辑回归API介绍 3 案例:肿瘤良性恶性预测 4 分类模型的评估 4.1 分类评估方法 ...

  4. 机器学习(三十):过采样和欠采样技术

    当我们的训练数据的类别分布严重偏斜时,我们面临的分类不平衡问题.不平衡可能影响我们的机器学习算法的一种方式是当我们的算法完全忽略少数类时.这是一个问题的原因是因为少数类通常是我们最感兴趣的类.例如,在 ...

  5. 深度学习模型在训练集上很好而在测试集表现得不好而拟合次数并不多_机器学习中的过拟合,欠拟合和偏倚方差折衷...

    过度拟合在机器学习中很重要. 很直观的解释过拟合:假设我们现在让机器学习考试做题,想象一种情况,机器逐字记住每个问题的答案(拟合非常好-完美).然后,我们可以在练习题上得分很高:我们这样做是基于希望实 ...

  6. 机器学习中的过拟合与欠拟合

    目录 一.什么是过拟合与欠拟合 二.原因及解决方法 三.正则化类别 四.拓展-原理 问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有 问题呢? 当算法在某个数据集当中出现这种情况,可能就出 ...

  7. 两分钟彻底让你明白Android Activity生命周期(图文)!

    大家好,今天给大家详解一下Android中Activity的生命周期,我在前面也曾经讲过这方面的内容,但是像网上大多数文章一样,基本都是翻译Android API,过于笼统,相信大家看了,会有一点点的 ...

  8. 两分钟彻底让你明白Android Activity生命周期

    大家好,今天给大家详解一下Android中Activity的生命周期,我在前面也曾经讲过这方面的内容,但是像网上大多数文章一样,基本都是翻译Android API,过于笼统,相信大家看了,会有一点点的 ...

  9. 超专业解析!10分钟带你搞懂Linux中直接I/O原理

    导语 | 本文主要以一张图为基础,向大家介绍Linux在I/O上做了哪些事情,即Linux中直接I/O原理,希望本文的经验和思路能为读者提供一些帮助和思考. 引言 我们先看一张图: 这张图大体上描述了 ...

最新文章

  1. 运行个Hello Word也能出Bug?Python、Java、C++等16种语言中枪,最严重可导致文件丢失...
  2. 图解Win7下PowerShell初步使用
  3. 神策数据罗彦博:如何正确使用漏斗分析提升转化?
  4. Leetcode题库 798.得分最高的最小轮调(差分数组 C实现)
  5. mysql 1千万 like优化_MYSQL千万级数据量的优化方法积累
  6. 面试题57 - II. 和为s的连续正数序列 golang
  7. MIP技术进展月报第2期: 数据绑定,异步脚本加速
  8. 小米6 Pro工程机惊现闲鱼 炒至2万多,王腾:太超前 卖1万都亏本
  9. 虚拟机中出现两个虚拟网卡
  10. 大数据技术发展需注意那些问题
  11. centos6.2+heartbeat+mysql5.5+drbd84高可用安装
  12. 树莓派python编程小车_树莓派智能车AlphaBot教程11:Python 网络编程
  13. 【转】C语言编程中static变量详解
  14. 计算机蓝屏代码0xc0000020,电脑运行程序时出现“损坏的映像错误0xc0000020”提示怎么办?...
  15. 如何用Matlab求不定积分
  16. 狂神Springboot笔记
  17. 服务器wifi无线放大器,旧路由器改wifi放大器详细教程【图】
  18. 突破次元壁垒,让身边的玩偶手办在屏幕上动起来!
  19. druid.io剖析
  20. BPF学习笔记(六)-- 使用bpf实现xdp的例子

热门文章

  1. unity中打包APP显示手机最顶端的状态栏
  2. 计算机网络——CSMA-CA协议
  3. Atcoder abc A~E
  4. 结合电压采样电路介绍RC滤波电路
  5. 免费的云服务器,大家推荐哪个呢?
  6. JavaScript 中 let 的使用
  7. Rosalind第七题:孟德尔第一定律
  8. 局域网服务器文件夹隐藏,共享文件设置隐藏 隐藏共享文件夹的方法
  9. Quectel_EC200xEC600xEG912Y系列_HTTP(S)_POST请求
  10. RGB 颜色透明16进制表示