过采样是指对训练集里的某类样例增加采样次数以减小 类别不平衡 。

与之相对应的是 欠采样 ,是指对训练集里的某类样例减少采样次数。

过采样和欠采样的对比

过采样会随机复制少数样例以增大它们的规模。欠采样则随机地少采样主要的类。

过采样的好处是它也会复制误差的数量。相对地,欠采样会让独立变量的方差看起来比其实际的方差更高。

过采样和类别不平衡

类别不平衡(class-imbalance)是指在训练 分类器 中所使用的训练集的类别分布不均。比如说一个 二分类 问题, 1000 个训练样本,比较理想的情况是 正类 、 负类 样本的数量相差不多;而如果正类样本有 995 个、负类样本仅 5 个,就意味着存在类别不平衡。

类别不平衡会导致模型没有学习到如何判别少类别,会在判断是出现偏差。

类别不平衡可以通过过采样、欠采样和调整 θ 值的方式去解决。其中过采样和欠采样是针对训练集里的样本数量,去相应的作出合适的采样方法,最终缓解类别不平衡。

父级词:采样法

同级词;欠采样

文章出处 过采样 Oversampling - 人工智能百科 - 超神经 (hyper.ai)

过采样 Oversampling相关推荐

  1. 欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响

    项目中出现了二分类数据不平横问题,研究总结下对于类别不平横问题的处理经验: 为什么类别不平横会影响模型的输出? 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例.在数据不 ...

  2. 欠采样(undersampling)和过采样(oversampling)

    当二分类数据不均衡时会影响模型的输出,此时需要对数据进行处理. 1:为什么类别不平横会影响模型的输出: 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例.在数据不平衡时, ...

  3. 数据预处理--上采样(过采样)与下采样(降采样)

    Imblearn package study 1. 准备知识 1.1 Compressed Sparse Rows(CSR) 压缩稀疏的行 2. 过采样(Over-sampling) 2.1 实用性的 ...

  4. Imblearn package study(不平衡数据处理之过采样、下采样、综合采样)

    Imblearn package study 1. 准备知识 1.1 Compressed Sparse Rows(CSR) 压缩稀疏的行 2. 过采样(Over-sampling) 2.1 实用性的 ...

  5. 过采样和欠采样问题(二分类数据不均衡)

    参考:知乎专栏 项目中出现了二分类数据不平衡问题,研究总结下对于类别不平横问题的处理经验: 1:为什么类别不平衡会影响模型的输出: 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大 ...

  6. 百面机器学习(8)——采样

    目录 采样的作用(采样,机器学习,概率统计) 均匀分布随机数(概率统计,线性同余) 常见的采样方法(逆变换采样,拒绝采样,重要性采样) 高斯分布的采样 马尔可夫蒙特卡洛采样法(蒙特卡洛法,马尔可夫链, ...

  7. python 均匀采样_机器学习采样方法大全

    Index数据采样的原因 常见的采样算法 失衡样本的采样 采样的Python实现 数据采样的原因 其实我们在训练模型的过程,都会经常进行数据采样,为了就是让我们的模型可以更好的去学习数据的特征,从而让 ...

  8. 深度学习检测小目标常用方法

    作者丨船长@知乎 来源丨https://zhuanlan.zhihu.com/p/83220498 编辑丨极市平台 本文仅用于学术分享,如有侵权,请联系后台作删文处理. 引言 在深度学习目标检测中,特 ...

  9. 干货 | 深度学习检测小目标常用方法

    点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 github地址:https://github.com/Captain1986/Captain ...

  10. adc量化单位_单片机外围模块漫谈之二,如何提高ADC转换精度

    在此我们简要总结一下ADC的各种指标如何理解,以及从硬件到软件都有哪些可以采用的手段来提高ADC的转换精度. 1. ADC指标 除了分辨率,速度,输入范围这些基本指标外,衡量一个ADC好坏通常会用到以 ...

最新文章

  1. css编写要注意什么 及一些公用的样式和外部引用 转码
  2. mysql库存先进先出_sql 先进先出 库存
  3. 成功解决 class 'AttributeError' : 'Editor' object has no attribute '_Editor__markerMap'
  4. echarts 折线图悬停拐点大小不变_echarts-折线图(折线虚实/颜色与拐点样式修改)...
  5. 无线覆盖项目地勘——无线地勘记录
  6. Shell openSomething - how is application component loaded in the runtime
  7. mysql5.1升级5.5_mysql数据库迁移,由版本5.1升级至5.5.29,需要注意哪些
  8. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
  9. CSS media queries
  10. Python Machine Learning Windows 安装包网址
  11. 一个常用的Android工具库
  12. Pytorch 其它有关Tensor的话题,GPU,向量化
  13. 读取寄存器值_温湿度传感器与S7-1200 PLC通讯读取温湿度案例
  14. activiti历史数据的查看
  15. 基于Android设备的 Kali Linux渗透测试教程(内部资料)
  16. php require找不到文件,第一次运行Fatal error: require_once找不到文件
  17. uniapp同目录的相对地址_如何修改手机MAC地址?
  18. git rebase 命令 常用_git rebase命令
  19. 【小白刷题之路Day26】令人虎躯一震的代码
  20. 【CGAL_多面体】3D多面体表面

热门文章

  1. OpenV2X开源社区亮相全球边缘计算大会
  2. 让Visio2007/2003支持UML2.2
  3. Postgresql的基本操作
  4. 下拉菜单失效变灰的问题(收)
  5. 适合社会化制造的设计
  6. bootstrap,layui,elementui vantui的区别
  7. 令牌环(Token Ring)
  8. 网吧系统快速设置工具
  9. 领域驱动设计(Domain Driven Design,DDD)
  10. jmeter快速修改协议、服务器名称或IP、端口号的方法