在打比赛期间,遇到了数据不均衡问题。于是网上查了查资料,便做了以下总结。嘿嘿

什么是数据不均衡问题

举个小栗子:

如果100个人中喜欢吃梨的有90人,喜欢吃苹果的有10人。

那么如果你随便在大街上找一个人,预测他是喜欢吃梨还是苹果?肯定的,傻子都知道猜他喜欢吃梨呀。因为这样基本不用学习什么知识,就能将准确率控制在90%左右。

用图表示就为:

真实值

预测值

像这种问题,傻瓜都会,还要机器干什么呢?所以,我们要找到真的学习并预测梨和苹果,且不受数据不均衡影响的分类器。

解决办法

1.想办法获取更多的数据

获取更多的数据,从数据来源查找更多的数据,来弥补数据的短缺。

2.换个评测方式

以前都用准确率accuracy,也就是预测对的个数 / 总个数。但是这个评测方式在高的准确率和低的误差并没有那么有说服力。那么怎么办呢?这个时候就该想起来准确率Precision和召回率Recall,从而求得的F1值。P,R,F1值是对所有类别的测评值。如果想了解更多,我之前写了该方法的理论与实践。

详谈P(查准率),R(查全率),F1值

3.重组数据

这个方法就简单粗暴了。比如原始数据为:

方式一

将少的蓝色数据复制多份,使得数量和多的数据相当即可。

蓝色数据复制多份

注:这样做的缺点是可能会过拟合。

方式二

砍掉一些橙色部分,使得和蓝色基本持平。

注:这样做的缺点一般使得数据预测的不那么准确,因为数据丢失。

个人认为,建议优先选择方式一。

4.换机器学习算法

神经网络,对于数据不均衡问题真的是束手无策。可以换其他的机器学习方法,比如决策树之类,不受该问题影响。

5.修改算法

这个就腻害了,直接将算法改了,来改变数据不均衡带来的影响。

比如你使用的是sigmoid算法:

x=0为分界线,当x小于0时为梨,大于0的时候为苹果。但是梨比较多,那么可以将阈值x=0向右平移:

使得绝大多数预测的结果为梨,只有一些特别情况,极其确定的时候预测为苹果。

补充

对于上述的所有方法,我做一个补充。

1.选择复制小数据方法的时候,没必要非得要和大数据1:1才好。可以比例慢慢靠近,说不定期间就有一个比值就很好呢。毕竟实践才是检验真理的唯一标准。

2.砍掉大数据的方法尽量不要用,很可能会影响分类器的效果。

参考资料

morvanzhou

https://www.bilibili.com/video/av16009140?from=search&seid=1236544046869302415


更多精彩内容,请关注 深度学习自然语言处理 公众号,就是下方啦!跟随小博主,每天进步一丢丢!哈哈!

【机器学习】如何处理数据不均衡问题相关推荐

  1. 机器学习数据不均衡处理教程

    机器学习数据不均衡处理教程 学习对数据进行过采样和欠采样.应用 SMOTE.集成方法和成本敏感型学习假设 课程英文名:Machine Learning with Imbalanced Data 此视频 ...

  2. 如何处理训练样本不均衡的问题

    原文:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set 在分类中如何处理训练集中 ...

  3. 收藏 | 10本免费的机器学习和数据科学书籍(附链接)

    来源:云栖社区 本文约2500字,建议阅读6分钟. 本文为大家介绍了免费学习机器学习和数据科学方面的书籍. 听说,最近大家都开学了?不对,是学生们都已经开学了,开学第一件事是什么?发新书!发新书!发新 ...

  4. 如何解决机器学习中数据不平衡问题

    作者:无影随想  时间:2016年1月.  出处:https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.h ...

  5. ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

    ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析.特征工程.科学预测等)的简介.流程.案例应用执行详细攻略 目录 数据科学的任务(数据分析.特征工程.科学 ...

  6. 如何解决机器学习中数据不平衡问题(转)

    作者:无影随想  时间:2016年1月.  出处:http://www.zhaokv.com/2016/01/learning-from-imbalanced-data.html 这几年来,机器学习和 ...

  7. 深度学习数据不均衡的处理方法

    在进行机器学习,深度学习任务时,经常会碰到数据不均衡的问题.如果数据严重失衡甚至会导致训练后的模型对任何样本对判别为训练数据中占比较多的一类.以下总结了再做图像任务时,处理数据不均衡问题常用的几种方法 ...

  8. 机器学习、数据科学与金融行业 系列四:智能投顾、量化投资与机器学习

    机器学习.数据科学与金融行业 系列四:智能投顾.量化投资与机器学习 难点不在于没有新思维,而在于无法摆脱陈旧思想的束缚.-- 巴菲特 历史不会重演,但却有韵律.-- 马克吐温 我可以计算出天体的运动和 ...

  9. 20本机器学习与数据科学书籍

    20本机器学习与数据科学必读书籍 高校的暑假即将来临,有没有想利用这个暑假为自己充电,为未来的自己赢在起跑线上,成为人工智能界的人生赢家呢?来自 KDnuggets 的 Matthew Mayo 就提 ...

  10. 人工智能之机器学习与数据挖据之WEKA使用与实践

    阅读对象 只要你想读,你就读呗!最好点个赞再走...:-) 本文尽量通过例子和直观描述,来说明人工智能中机器学习和数据挖据的主要概念,分类,和使用方法,并通过例子描述如何使用它来促进公司业务发展.虽然 ...

最新文章

  1. 从AI应用的五大要素看,AI产业存在哪些机会?(算力算法)
  2. SQL的多种JOIN
  3. 360 开源企业级 Kubernetes 多集群管理平台 Wayne
  4. html5播放视频只有声音不出现画面?
  5. php pdf 文字水印图片,php如何给pdf加上文字水印和图片水印[未测试]
  6. adobe FMS(flash media server)错误解决小结
  7. MyEclipse6.5注册码(转)
  8. perl脚本中的特殊字符也与V字符串
  9. java企业级开发规范_“华为云企业级Java编程规范”学习笔记
  10. 常见RFID卡片介绍、破解思路 及 Proxmark3简介
  11. pywin32+excel(一)——Python使用win32com/pywin32操作excel
  12. 顺序表基本操作的实现
  13. vb.net 教程 2-11 错误处理
  14. 计算机logo设计图片简单,一个简单的字体LOGO设计流程:你看简单吗?
  15. android pdf转word开发,如何在Android手机上将PDF转换为Word文档
  16. Leetcode-714. 买卖股票的最佳时机含手续费
  17. chrome 打开默认页 被篡改_chrome启动页被篡改怎么办_chrome浏览器启动页全被劫持处理方法-win7之家...
  18. 简单实现将GIF图片转换为字符画
  19. 3D人体姿态估评估指标
  20. 《深入学习VMware vSphere 6》——1.2 虚拟化应用概述

热门文章

  1. Webpack 基础使用
  2. (转)iOS 屏幕适配
  3. Atitit.uml2 api 的编程代码实现设计uml开发 使用eclipse jar java 版本
  4. Picturebox实现图片的缩放
  5. 驳熊节和Martin Fowler的Java消亡论!
  6. Html和Css学习笔记-html进阶-div与span
  7. (转)利用个人电脑搭建网站WEB服务器域名访问
  8. 读《研发的那些事》有感
  9. C/C++编程语言中“crosses initialization”编译错误分析
  10. 项目设计与范围管理(笔记)