分类目录:《深入理解机器学习》总目录


传统的分类技术通常存在一个致命缺陷,即当其在样本分布不均衡的数据上训练时(如:采用99个健康人和1个病人的体检指标创建疾病诊断模型或99990个正常数据包和10个病毒数据包构建网络入侵检测模型等),往往会出现分类面偏倚的现象,从而无法得到理想的分类效果,在严重情况下,模型甚至会完全失效。

上述问题在机器学习与数据挖掘领域通常被称为类别不平衡(Class Imbalanced)问题,人们也习惯地将用于解决上述问题的算法统称为类别不平衡学习算法。自20世纪90年代末以来,类别不平衡学习一直是机器学习与数据挖掘领域的研究热点与难点之一,很多业内的主流会议与期刊也都曾以此为题举办过专刊或研讨会,如AAAI’00, ICML, ACM SIGKDD Explorations Newsletter以及PAKDD等。在ICDM会议上,类别不平衡问题更是被列为数据挖掘领域待解决的十大难题之一。时至今日,学术界及产业界对该问题的研究热情仍未消退,且随着大数据的出现而呈现逐渐升温的态势。

在近10年,类别不平衡领域的文献发表数仍表现出逐年递增的趋势,特别是在2012年后,每年发表的文献数均保持在120篇以上。事实上,考虑到关键词及文献库选取的局限性,上述统计结果是在打了严重折扣的情况下得到的,实际上要远多于此。由此可见,类别不平衡学习已逐渐发展成为机器学习与数据挖掘领域的重要分支之一。在《深入理解机器学习——类别不平衡学习》系列的后续部分,将陆续对类别不平衡问题的基本概念、常用的类别不平衡学习技术及类别不平衡学习所适用的应用领域做概要性的介绍,以使读者能对类别不平衡学习有初步简单的了解与认识,为机器学习实战项目打下坚实的基础。

类别不平衡就是指在分类任务中不同类别的训练样本数目差别很大的情况。不失一般性,我们可以假设训练集中只包含两类样本,即待处理的分类问题为二分类问题,同时,为了保证更好的可视化效果,不妨设每个样本均具有两个特征。下图给出了平衡样本集及不平衡样本集的对比效果,其中:平衡样本集中两类各有500个样本,类别1样本在特征1的[0,0.7]取值区间及特征2的[0,1]取值区间上分别服从均匀分布,而类别2样本在特征1的[0.5,1]取值区间及特征2的[0,1]取值区间内服从均匀分布;不平衡样本集同样包含1000个样本,但类别1被分配900个样本,而类别2仅有100个样本,其各自的分布与平衡样本集完全一致。

不难观察到一个有趣的现象,即仅从视觉效果来看,在平衡与不平衡训练集上,两类样本具有完全不同的分割位置,即表明它们的分类边界不同。但据我们所知,在这两个训练集上,同类样本的分布是完全一致的。那么,这难道仅仅是由于人类视力的缺陷而引起的错觉么?事实却非如此,因为绝大多数传统的分类算法都犯了和人类眼睛同样的错误。众所周知,尽管传统的分类算法在构造机理上各不相同,但却几乎均遵循一个共有的原则,即训练误差最小化原则。在平衡训练集上,采用训练误差最小化原则无疑会得出最优结果,而当训练集为不平衡时,若仍然坚持采用这一原则则会产生严重后果。回顾上图(b),可清晰地观察到两类样本在特征1的[0.5, 0.7]取值区间内相互交叠,且在这一区间内类别1(多数类)的样本个数远多于类别2(少数类),若采用训练误差最小化原则,则处于此区间内的少数类样本均会被误判,导致少数类的分类精度远低于多数类,从而致使所训练分类模型的质量大打折扣,甚至完全失效。这便是类别不平衡问题对传统分类算法所提出的挑战。

在类别不平衡问题中,人们习惯将包含样本数较多的类别称为负类,而将样本数较少的类别称为正类。此外,另一个较重要的概念为不平衡比率(Imbalanced Ratio, IR),它的值为负类样本数与正类样本数之比。通常,IR值越大,其对传统分类器性能的危害也会越大。考虑一个IR值为99的训练样本集,若在构造分类器时,将所有的正类样本均误判为负类,其分类精度仍可达到99%,而这样的精度对于建立在训练误差最小化原则之上的传统分类算法而言,是绝对可以接受的,但这样的分类模型确用处不大。

根据不同的划分标准,类别不平衡问题也可被分为多个不同的类别,具体分类标准如下:

  • 以类别数作为划分标准:将类别不平衡问题划分为一类不平衡问题、二类不平衡问题及多类不平衡问题。其中,二类不平衡问题在实际应用中最为常见,目前研究得也最为充分;多类不平衡问题相对最为复杂,目前仍是该领域的研究热点与难点;而一类不平衡问题则独树一帜,目前已有多种有效的解决方案。
  • 以IR值作为划分标准:将类别不平衡问题划分为轻度不平衡问题和极度不平衡问题。其中,前者的IR值较小,对传统分类器性能的影响强度也不大,而后者则会对传统分类算法构成较大威胁,极端情况下会令其完全失效。
  • 以作用范围作为划分标准:将类别不平衡问题划分为类内不平衡问题与类间不平衡问题。其中,前者又被称作类内子聚集或小析取项问题,其主要是由同类样本在特征空间分布不均所致,而后者则被视为传统意义上的类别不平衡问题。上述二者既有区别,又相互关联,当二者共同出现时,将为学习任务制造更多的困难。

除上述概念外,读者还有必要弄清类别不平衡学习与代价敏感学习之间的区别与联系。实际上,上述二者是两个完全不同的概念,在机器学习领域也分属两个完全不同的分支。在代价敏感学习中,代价的定义往往分多种,包括误分代价、测试代价、查询代价、样本代价、计算代价等。仅当考虑误分代价时,代价敏感学习才能与类别不平衡学习建立起联系,并被用作类别不平衡学习方法使用。因此,读者不要混淆上述两类学习方法的概念。

深入理解机器学习——类别不平衡学习(Imbalanced Learning):基础知识相关推荐

  1. 深入理解机器学习——类别不平衡学习(Imbalanced Learning):影响因素

    从<类别不平衡分布对传统分类器性能的影响机理>文章可以看出,类别不平衡分布是会对各种传统分类算法的性能产生负面影响的.然而,这种负面影响的大小却与很多因素有关,本文和大家探讨这些影响因素. ...

  2. 深入理解机器学习——类别不平衡学习(Imbalanced Learning):性能评价测度

    相关文章: · 机器学习模型的性能度量 性能评价测度是用于评价分类模型"好坏"的一种量度.对于绝大多数了解分类问题的读者来讲,可能接触最多的一种性能评价测度就是分类准确率(Accu ...

  3. 深入理解机器学习——类别不平衡学习(Imbalanced Learning):应用领域

    类别不平衡学习技术并不仅仅停留在理论上,在很多现实世界的应用领域中,都会用到此类技术.其应用领域包括但不限于以下几方面. 网络入侵检测 目前,随着互联网产业的快速发展,人类的日常生活和网络的联系也变得 ...

  4. 机器学习处理信号分离_[学习笔记]使用机器学习和深度学习处理信号基础知识...

    参考学习:Signal Generation and Preprocessing 本人只是为了了解信号处理的基础知识而做的学习笔记,涉及深度可能不够,有理解错误的地方请大胆指出,感激不尽 一.信号生成 ...

  5. 深度学习分类类别不平衡_Github|类别不平衡学习资源(上)

    今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文.代码.框架.库等资源 https://github.com/ZhiningLiu1998/awesome-imbalan ...

  6. Github|类别不平衡学习资源(上)

    点击上方"算法猿的成长",关注公众号,选择加"星标"或"置顶" 总第 138 篇文章,本文大约 5400 字,阅读大约需要 15 分钟 今天 ...

  7. Github|类别不平衡学习资源(下)

    点击上方"算法猿的成长",关注公众号,选择加"星标"或"置顶" 总第 139 篇文章,本文大约 3600 字,阅读大约需要 10 分钟 继续 ...

  8. 机器学习-类别不平衡问题

    引言:我们假设有这种情况,训练数据有反例998个,正例2个,模型是一个永远将新样本预测为反例的学习器,就能达到99.8%的精度,这样显然是不合理的. 类别不平衡:分类任务中不同类别的训练样例数差别很大 ...

  9. HTML5学习笔记 —— JavaScript基础知识

    HTML5学习笔记 -- JavaScript基础知识 标签: html5javascriptweb前端 2017-05-11 21:51 883人阅读 评论(0) 收藏 举报 分类: JavaScr ...

最新文章

  1. Windows自带certutil工具校验用法
  2. 青源 Forum | 人工智能的数理基础前沿系列报告 · 第 4 期
  3. 文件保存到服务器失败,Office 2010在服务器共享文件夹中保存文件失败
  4. javascript 查找文本并高亮显示
  5. layou split 属性
  6. python输出不重复的单词_Python情感分析(比较单词时,不计算文本中重复的单词)...
  7. java-DateFormat
  8. html5手机常亮,vue开发的webapp中的手机物理返回键,以及屏幕常亮处理
  9. JVM运行机制理解整理
  10. BZOJ4141 THUSC2013 魔塔 贪心
  11. mysql的管理与优化_MySQL管理与优化(9)_MySQL
  12. 理解list和vector的区别
  13. macOS 汇编指南
  14. 如何用matlab对两个行向量作图_matlab 绘图与图形处理(二)
  15. hdu 5755 Gambler Bo 高斯消元
  16. 微信公众号网页授权--前端获取code及用户信息(vue)
  17. git push时rejected,解决non-fast-forward errors的办法
  18. 马自达化身杠精?老子就是不用触摸屏!
  19. 书山有路勤为径,学海无涯苦作舟
  20. 云原生架构下的微服务选型和演进

热门文章

  1. Cooperative Perception in an Automotive Context 综述
  2. 【北邮国院大二下】产品开发与营销知识点整理 Topic7
  3. Android 性能监测工具,优化内存、卡顿、耗电、APK的方法
  4. checbox加datagrid实现批量删除
  5. 网站关键词的选择和优化设置技巧
  6. 高通开发系列 - Voice Call之语音通话流程和问题分析
  7. 中易云嵌入式工业主机-低功耗工业控制智能终端
  8. GridView 72般绝技 转自清清月儿收藏
  9. 程序是如何运行的呢?
  10. PyDev for Eclipse 简介