Learning from Imbalanced Data

发表在IEEE《TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》,09年的一篇好文章,综述类型的吧,比较全面地介绍了数据不均衡的知识。当时看谷歌学术上引用量6504。导师也给我圈了这篇文章让我看。
就边翻译边学习边记录。

论文下载链接:
https://ieeexplore.ieee.org/abstract/document/5128907.

摘要

随着数据可用性在许多大型、复杂和网络化系统(如监视、安全、互联网和金融)中的不断扩展,从原始数据推进对知识发现和分析的基本理解以支持决策过程变得至关重要。尽管现有的知识发现和数据工程技术已经在许多现实世界的应用中显示出了巨大的成功,但从不平衡数据中学习的问题(不平衡学习问题)是一个相对较新的挑战,吸引了学术界和产业界越来越多的关注。不平衡学习问题涉及到学习算法在数据表示不足和严重的类分布偏斜情况下的性能。由于不平衡数据集固有的复杂特性,从这些数据中学习需要新的理解、原则、算法和工具,以有效地将大量原始数据转换为信息和知识表示。在这篇文章中,我们提供了一个全面的发展研究的不平衡数据学习。我们的重点是对问题的本质、最先进的技术以及在不平衡学习场景下用于评估学习绩效的当前评估指标进行批判性回顾。此外,为了促进该领域的未来研究,我们还强调了从不平衡数据学习的主要机遇和挑战,以及潜在的重要研究方向。

指标术语:不平衡学习,分类,抽样方法,代价敏感学习,基于核学习,主动学习,评估指标。

1 INTRODUCTION

[主要内容是不平衡问题现在越来越被重视,以及论文每节的大概内容]
最近科学技术的发展使原始数据的增长和可用性以爆炸性的速度发生。这为知识发现和数据工程研究创造了巨大的机会,使其在从日常平民生活到国家安全、从企业信息处理到政府决策支持系统的广泛应用中发挥重要作用,从微观数据分析到宏观知识发现。近年来,学习不平衡问题引起了学术界、工业界和政府资助机构的极大关注。不平衡学习问题的根本问题是不平衡数据的能力会显著地损害大多数标准学习算法的性能。大多数标准算法假定或期望均衡的类别分布或相等的误分类代价。因此,当面对复杂的不平衡数据集时,这些算法不能恰当地表示数据的分布特征,从而在数据的不同类别之间提供不准确的精度。当翻译到现实世界的领域时,不平衡的学习问题代表了一个反复出现的问题,具有广泛的影响,值得不断探索。这种日益增长的兴趣反映在最近的几个主要研讨会、会议和特别问题的一部分,包括美国人工智能协会(现为人工智能进步协会)关于从不平衡数据集学习的研讨会(AAAI ’ 00) [1],国际机器学习会议关于从不平衡数据集学习的研讨会(ICML ’ 03)[2]和计算机器协会关于知识发现和数据挖掘的特别兴趣小组(ACM SIGKDD Explorations ’ 04)[3]。

由于大量注意力都集中在不平衡的学习问题上,而且在这一领域的进步非常活跃,要了解当前的所有发展情况可能是一项艰巨的任务。图1显示了基于电气和电子工程师协会(IEEE)和计算机器协会(ACM)数据库对过去十年中关于不平衡学习问题的出版物数量的估计。可以看出,这一领域的出版物活动正以爆炸性的速度增长。由于这一领域的发展相对较早,且发展迅速,因此对该领域过去和当前工作的一致评估以及对未来研究的预测对于该领域的长期发展至关重要。在这篇论文中,我们试图提供一个关于不平衡学习问题的当前理解和为解决这个问题而创建的最先进的解决方案的调查。此外,为了促进该领域的未来研究,我们还强调了从不平衡数据学习的主要机遇和挑战。


图1所示。关于不平衡学习的出版物数量。

特别是在第2节中,我们首先描述了不平衡学习问题的本质,这为我们回顾不平衡学习解决方案提供了基础。
第3节中,我们对针对不平衡问题的创新研究进展进行了批判性的回顾,包括抽样方法、代价敏感学习方法、基于核的学习方法和主动学习方法。
第4节回顾了不平衡学习的评估指标,其中提供了各种建议方法,用于比较和评估不同的不平衡学习算法的性能。
考虑到从不平衡数据中学习在研究领域是一个相对较新的话题,在第5节中,我们对该领域研究发展的机遇和挑战进行了详细的讨论。我们希望本节将提供一些有用的建议,以促进和指导这一领域的研究的长期发展。
最后,在第6节给出结论。

2 NATURE OF THE PROBLEM

问题的性质

[个人阅读:在不平衡乳房X线数据集上,标签是“阳性”或“阴性”,有病的样本少,没病的多,也就是可看做一个二分类。但是发现分类器对于多数的(没病)准确性高,对于少数的(有病)准确率低。所以需要一个分类器在不影响对多数的精度下也能保证对少数的精确度]

从技术上讲,任何数据集在各个阶层之间的分布不均都可以被视为不平衡。
然而,社会上的普遍理解是,不平衡的数据对应的数据集显示出显著的,在某些情况下极端的不平衡。(意思就是普遍认为只有很明显的、很极端的不平衡才是不平衡)
具体来说,这种不平衡被称为阶级间的不平衡;在100:1、1000:1和10,000:1的级别之间的不平衡并不少见,在每种情况下,一个级别严重代表另一个[4]、[5]、[6]。尽管这一描述似乎暗示所有的类间失衡本质上是二元的(或两类)(也就是二分类为问题),但我们注意到,在多类数据中,[7]、[8]、[9]、[10]、[11]、[12]等不同类之间存在失衡。在本文中,我们只简要地讨论多类不平衡学习问题,而从空间的角度着重讨论两类不平衡学习问题。

为了突出不平衡的学习问题在现实世界中的含义,我们提供了一个生物医学应用的例子。以“乳房x线照相术数据集”为例,该数据集是从对一组不同患者进行的一系列乳房x线照相术检查中获得的图像集合,已广泛用于解决不平衡学习问题[13],[14],[15]的算法分析。从二元的角度分析图像,产生的自然分类(标签)分别是“阳性”或“阴性”,代表“癌症”或“健康”患者的图像。根据经验,人们预计非癌症患者的数量将大大超过癌症患者的数量;事实上,这个数据集包含了10,923个“负”(多数类)样本和260个“正”(少数类)样本。最好,我们需要一个分类器,为数据集中的少数类和多数类提供平衡的预测精度(理想的100%)。在现实中,我们发现分类器倾向于提供一个严重不平衡的准确性程度,大多数类有接近100%的准确性和少数类有0- 10%的准确性,例如[13],[15]。假设一个分类器在乳房x线照相术数据集的少数类上达到10%的准确率。分析上,这意味着234个少数样本被错误地分类为多数样本。这相当于234名癌症患者被分类(诊断)为非癌症。在医疗行业,这种后果的后果可能是压倒性的昂贵,比将一个非癌症患者分类为癌症患者还要昂贵。因此,很明显,对于这个领域,我们需要一个分类器,它将为少数类提供高精度,而不会严重损害多数类的准确性。此外,这也表明,在学习不平衡的情况下,传统的使用单一评价标准(如总体准确率或错误率)的评价实践并不能提供足够的信息。因此,在不平衡数据存在的情况下,对于绩效的结实性评价,更有必要采用信息丰富的评估指标,如接收方工作特征曲线、精确召回曲线和成本曲线。这些主题将在本文的第4节中详细讨论。除了生物医学应用之外,进一步的推测还会对欺诈检测、网络入侵和漏油检测等领域产生类似的后果,比如[5]、[16]、[17]、[18]、[19]。

这种形式的不平衡通常被称为内在的,也就是说,不平衡是数据空间性质的直接结果。然而,不平衡的数据并不仅仅局限于内在的多样性。时间和存储等可变因素也会导致数据集不平衡。这种类型的不平衡被认为是外在的,也就是说,不平衡与数据空间的性质没有直接关系。外在的不平衡和内在的不平衡一样有趣,因为很有可能从外在的不平衡数据集获得的数据空间根本就不平衡。例如,假设一个数据集是在一个特定的时间间隔内从一个连续的平衡数据流中获得的,如果在这个时间间隔内,传输有偶发的中断,而数据没有被传输,那么,获取的数据集可能是不平衡的,在这种情况下,数据集将是一个外部的不平衡数据集,从一个平衡的数据空间获得。

除了内在和外在的不平衡之外,了解相对不平衡和罕见情况(或“绝对罕见”)造成的不平衡之间的区别也是很重要的。假设一个乳房x线照相术数据集有10万个样本,类别之间的比例为100:1。我们希望这个数据集包含1000个少数类的例子;显然,多数阶级支配着少数阶级。假设我们通过测试更多的患者使样本空间加倍,并进一步假设分布不变,即少数群体现在包含2000个样本。显然,少数类的人数仍处于劣势;然而,有了2000个例子,少数群体本身并不一定稀少,而是相对于多数群体而言。这个例子代表了相对的不平衡。相对不平衡在现实应用中经常出现,并且经常是许多知识发现和数据工程研究工作的焦点。有研究表明,对于某些相对不平衡的数据集,少数概念的学习是准确的,[22],[23],[24]不平衡的干扰很小。这些结果特别具有启发性,因为它们表明不平衡的程度并不是阻碍学习的唯一因素。事实证明,数据集的复杂性是分类恶化的主要决定因素,而分类恶化又被相对不平衡的添加所放大

数据复杂性是一个宽泛的术语,包括重叠、缺乏代表性数据、小分离等问题。在一个简单的例子中,考虑图2中描述的分布。在这个图中,星星和圆圈分别代表少数和多数阶级。通过考察,我们可以看到图2a和图2b中的分布都表现出相对不平衡。但是,请注意,图2a的类之间没有重叠的例子,每个类只有一个概念,而图2b既有多个概念,也有严重的重叠。图2b中的子概念C也很有趣。由于缺乏代表性数据,这个概念可能会被一些诱导者遗忘;这个问题体现了罕见情况下的不平衡,我们将继续探索。


图2所示。(a)阶层间不平衡的数据集。(b)类间和类内不平衡、多个概念、重叠、噪声和缺乏代表性数据的高度复杂的数据集。

由罕见实例造成的不平衡是少数类实例非常有限的领域的代表,也就是说,目标概念是罕见的。在这种情况下,缺乏代表性的数据将使学习困难,无论班与班之间的不平衡[20]。此外,少数概念还可以额外包含一个实例有限的子概念,达到分歧的分类难度[25],[26]。事实上,这是另一种形式的不平衡的结果,即类内不平衡,它涉及到类[27]、[28]、[29]中的子概念的代表性数据分布。这些想法在图2的简化示例中再次突出显示。在图2b中,聚类B代表占主导地位的少数类概念,聚类C代表少数类的一个子概念。聚类D代表多数类的两个子概念,聚类A(任何不包含的)代表占主导地位的多数类概念。对于这两个类,主要集群中的示例数量远远超过它们各自的子概念集群中的示例数量,因此该数据空间显示了类内和类间的失衡。此外,如果我们完全删除集群B中的示例,那么数据空间就会有一个易于识别的同质少数类概念(集群C),但由于其严重的表示不足,可能会被遗忘。

阶级内部失衡的存在与小间断问题紧密交织在一起,已被证明大大降低了分类绩效[23],[27],[28],[29]。简单地说,小析取词的问题可以理解为:分类器试图通过创建多个描述主要概念[20],[25],[26]的析取规则来学习一个概念。在同构概念的情况下,分类器通常会创建较大的分离词,即涵盖与主要概念有关的大部分(集群)示例的规则。然而,在异质概念的情况下,小的间断,即涵盖与主要概念有关的一小群例子的规则,是未被充分表示的子概念[20],[25],[26]的直接结果。此外,由于分类器既要学习多数概念,也要学习少数概念,因此小析取问题不仅仅局限于少数概念。相反,多数类的小的分离可能来自嘈杂的错误分类的少数类例子或未充分代表的子概念。然而,由于大多数类数据的巨大代表性,这种情况很少发生。更常见的情况是,噪音可能会影响少数族裔的分裂。在这种情况下,对应于小间断的聚类的有效性就成为一个重要的问题,即,这些例子是代表一个实际的子概念还是仅仅是归因于噪声。例如,在图2b中,假设一个分类器对聚类a中的两个噪声少数样本分别产生析取,那么与聚类C相比,这些析取属于噪声非法析取,例如,C是由一个严重缺乏代表的子概念形成的合法聚类。

我们想讨论的最后一个问题是不平衡数据和小样本容量的组合问题[30],[31]。在当今的许多数据分析和知识发现应用中,高维和小样本数据往往是不可避免的;一些具体的例子包括人脸识别和基因表达数据分析等。传统的模式识别社团[30]中对小样本问题进行了广泛的研究。为了解决这一问题,人们广泛采用降维方法,如主成分分析(PCA)和各种可拓方法[32]。然而,当有代表性的数据集的概念显示出前面描述的形式的不平衡时,不平衡的数据和小样本规模的组合对社区[31]提出了新的挑战。在这种情况下,会同时出现两个关键问题[31]。首先,由于样本量小,所有与绝对稀缺性和阶级内部失衡有关的问题都是适用的。其次,更重要的是,当这种形式的不平衡出现时,学习算法往往不能在样本空间上推广归纳规则。在这种情况下,小样本和高维数的结合阻碍了学习,因为在样本有限的情况下,很难形成高度的特征连接。如果样本空间足够大,则可以为数据空间定义一组通用(尽管复杂)的归纳规则。但是,当样本有限时,形成的规则可能过于具体,导致过拟合。关于从这样的数据集中学习,这是一个相对较新的研究课题,需要在社区中得到非常需要的关注。因此,我们将在稍后的讨论中再次讨论这个话题。

3 THE STATE-OF-THE-ART SOLUTIONS FOR IMBALANCED LEARNING

不平衡学习的最先进的解决方案

第二节中讨论的主题为当前大多数关于不平衡学习的研究活动提供了基础。特别是,这些问题对标准学习算法的巨大阻碍作用是大多数现有解决方案的重点。当标准学习算法被应用于不平衡数据时,描述少数概念的归纳规则往往比描述多数概念的归纳规则更少、更弱,因为少数群体的人数往往不足、代表性不足。为了具体理解不平衡学习问题对标准学习算法的直接影响,我们观察了一个流行的决策树学习算法的案例研究。

在这种情况下,不平衡数据集利用了决策树[23]、[24]、[33]各节点的分裂准则的不足。决策树使用递归、自顶向下的贪婪搜索算法,该算法使用特征选择方案(如信息增益)在树的每个节点上选择最优的特征作为分裂准则;然后为拆分特性[26],[34]对应的每个可能值创建一个后续(叶子)。因此,训练集被依次划分为更小的子集,这些子集最终用于形成与类概念相关的不相交的规则。这些规则最终被组合在一起,以使最终假设最小化每个类的总错误率。在数据不平衡的情况下,这个过程存在两个问题。首先,对数据空间的逐次划分导致对少数类示例的观察越来越少,导致描述少数概念的叶子越来越少,进而导致置信估计越来越弱。其次,依赖于不同特征空间连接的概念可能会被通过分割引入的稀疏性遗忘。在这里,第一个问题与相对和绝对失衡问题相关,而第二个问题与阶级间失衡和高维性问题最相关。在这两种情况下,不平衡数据对决策树分类性能的影响都是有害的。在下面的章节中,我们将评估为克服不平衡数据的影响而提出的解决方案。

为了清晰地表示,我们在这里建立本节中使用的一些符号。考虑给定的训练数据集S,其中包含m个例子也就是

我们定义:

其中,xi∈ X是n维特征空间


类标识标签是否与实例xi相关联
特别地,C=2代表了二类分类问题。此外,我们定义了子集Smin∈S和Smaj∈S,其中Smin是S中少数阶级的例子集,Smaj是 S中多数阶级的例子集。
Smin∩Smaj={Φ} Smin∪Smaj={S}
最后,将S上的抽样过程生成的任意集合标记为E,其中不相交的子集Emin和Emaj分别表示E的少数和多数样本。

3.1 Sampling Methods for Imbalanced Learning

不平衡学习的抽样方法

典型地,在不平衡学习应用中使用的抽样方法包括通过某些机制修改不平衡数据集,以提供一个平衡的分布。研究表明,对于几个基分类器来说,平衡数据集比不平衡数据集[35],[36],[37]提供了更好的总体分类性能。这些结果证明了采样方法在非平衡学习中的应用。然而,这并不意味着分类器不能从不平衡的数据集中学习;相反,研究也表明,从某些不平衡的数据集诱导的分类器与从相同的数据集通过取样技术[22],[23]诱导的分类器具有可比性。这一现象与第2节所述的罕见病例问题及其相应后果直接相关。然而,对于大多数不平衡的数据集,抽样技术的应用确实有助于提高分类器的准确性。

3.1.1 Random Oversampling and Undersampling

随机过采样和欠采样

随机过采样的机制自然地遵循了它的描述,通过增加一个从少数类中抽样的集合E:对于Smin中随机选择的少数例集,通过复制所选的例集并将其添加到S中来增加原集合S,这样,Smin是中总例数通过|E|增加,相应地调整S的类分布平衡。这提供了一种机制,可以将类分布平衡的程度改变到任何所需的级别。过采样方法易于理解和可视化,因此我们避免提供其功能的任何具体示例。

过采样是将数据追加到原始数据集,而随机欠采样则是将数据从原始数据集中移除。特别是,我们在smaj中随机选择一组多数类的例子,并从S中删除这些样本,这样|S|=|Smin|+ |Smaj| -|E|。因此,欠采样很容易给我们一个简单的方法来调整原始数据集S的平衡。

乍一看,过采样和欠采样方法在功能上似乎是相同的,因为它们都改变了原始数据集的大小,实际上可以提供相同比例的平衡。然而,这种共性只是表面的,每种方法都会引入自己的一组有问题的结果,可能会阻碍[25],[38],[39]的学习。在欠采样的情况下,问题是相对明显的:从多数类中删除示例可能会导致分类器错过与多数类相关的重要概念。关于过采样,这个问题有点不透明:由于过采样只是将复制的数据附加到原始数据集,某些示例的多个实例变得“绑定”,从而导致过拟合[38]。特别地,过采样中的过拟合发生在当分类器为同一个例子的多个副本在一个规则中产生多个子句时,这导致规则变得太具体;虽然在这种场景下训练的准确率会很高,但是在未见测试数据上的分类性能通常要差得多[25]。

3.1.2 Informed Undersampling

在[40]、EasyEnsemble和BalanceCascade算法中给出了两个显示良好结果的informed欠采样示例。这两种方法都是为了克服传统随机欠采样方法中信息丢失的不足。EasyEnsemble的实现非常简单:它开发了一个集成学习系统,通过从多数类中独立抽样几个子集,并基于每个子集与少数类数据的组合开发多个分类器。这样,EasyEnsemble可以被认为是一种无监督学习算法,通过使用独立随机抽样和替换来探索大多数类数据。另一方面,BalanceCascade算法采用了一种监督学习方法,它开发了一个集成的分类器来系统地选择哪个多数类的例子要进行欠采样。具体来说,对于集合的第一个假设H(1),考虑一个多数类示例的抽样集E,使|E|=|Smin|,并使集合设置N={E∪Smin}来诱导H(1)。观察H(1)的结果,识别所有被正确分类为属于Smaj的xi∈N,将此集合称为Nmaj,那么,既然我们已经有了H(1),那么假设Nmaj是在smaj有些多余,因为H(1)已经训练过了。在此基础上,我们从Smaj移除集合N*maj并且生成一个新的多数类样本的抽样集E,与|E|=|Smin|,并再次使集合设置N={E∪Smin}得到H(2)。这个过程被迭代到停止标准,然后使用级联组合方案来形成最终假设[40]。

另一个informed欠采样的例子是使用k -最近邻(KNN)分类器来实现欠采样。根据给定数据分布的特点,在[41]中提出了四种KNN欠采样方法,分别是NearMiss-1、NearMiss-2、NearMiss-3和“最遥远”方法。NearMiss-1方法选取与三个最接近的少数类样本的平均距离最小的多数类样本,而NearMiss-2方法选取与三个最遥远的少数类样本的平均距离最小的多数类样本。NearMiss-3为每个少数例子选择一个给定数量的最接近多数的例子,以保证每个少数例子都被一些多数例子所包围。最后,“最距离”法选取与三个最近的少数民族类样本的平均距离最大的多数类样本。实验结果表明,NearMiss-2方法对不平衡学习具有较好的效果。

还有其他类型的informed欠采样方法。例如,片面的选择(OSS)方法[42]选择一个代表多数类的子集E和结合它与所有少数例子Smin去形成一个初步设置N; N={E∪Smin}。这个集合N通过使用数据清理技术进一步细化。我们将在第3.1.5节中回到对这种方法的讨论,现在将我们的注意力转向合成抽样方法。

3.1.3 Synthetic Sampling with Data Generation

具有数据生成的合成采样

在合成采样方面,合成少数过采样技术(SMOTE)是一种强有力的方法,在各种应用中都取得了巨大的成功。SMOTE算法基于已有少数样本之间的特征空间相似性创建人工数据。具体来说,对于子集Smin∈S,考虑每个示例xi∈Smin的K近邻,对于某个指定的整数K;将K近邻定义为Smin的K个元素,考虑到它们自身与xi之间的欧氏距离在特征空间x的n维上是最小的。然后将对应的特征向量差与【0,1】之间的一个随机数相乘;最后,把这个向量加上

(对这个公式的解释,太难翻译了符号比较多贴上原文)

图3显示了SMOTE程序的示例。图3a显示了一个典型的不平衡数据分布,其中星星和圆圈分别代表少数和多数阶级的例子。K-nearest neighbors的数量设置为K=6。图3b显示了沿着xi和^ xi之间的线创建的样品,并用菱形突出显示。这些合成样本有助于打破简单过采样所带来的束缚,并且进一步以一种通常显著改善学习的方式增强原始数据集。尽管SMOTE算法显示了许多有前途的优点,但它也有其缺点,包括过度泛化和方差[43]。我们将在接下来的讨论中进一步分析这些限制。


图3所示。(a)考虑的例子K-最近邻的例子(K=6)。(b)基于欧氏距离的数据

3.1.4 Adaptive Synthetic Sampling创建

自适应合成采样

SMOTE算法中,过度泛化的问题很大程度上归因于它创建合成样本的方式。具体来说,SMOTE为每个原始少数例生成相同数量的合成数据样本,而不考虑相邻的例子,这增加了[43]类之间重叠的发生。为此,人们提出了各种自适应采样方法来克服这一局限性;具有代表性的算法包括Borderline-SMOTE[44]算法和ADASYN自适应合成采样[45]算法。

对这些自适应算法特别感兴趣的是用于识别少数种子样本的技术。在Border - smote的情况下,实现如下:首先,确定每个xi∈ Smin的最近邻集合;称这个集合为Si:m-NN,Si:m-NN∈S。接下来,对于每个xi,确定属于多数类的最近邻居的数量,
|Si:m-NN∩Smaj|。最后,选择那些满足的xi。

由式(2)可知也就是上面的公式,只选择多数类邻居比少数类邻居多的xi,形成集合“DANGER”[44]。因此,DANGER中的例子代表了边缘少数群体的例子(最有可能被错误分类的例子)。然后将DANGER集输入SMOTE算法,在边界附近生成合成的少数样本。应该注意,如果 |Si:m-NN∩Smaj|=m,即,如果xi的m个最近邻都是大多数的例子,如图4中的实例C,那么这个xi被认为是噪声,没有为它生成合成的例子。图4给出了Borderline-SMOTE程序的示例。对比图4和图3,我们可以看到,BorderlineSMOTE和SMOTE之间的主要区别在于,SMOTE为每个少数实例生成合成实例,而BorderlineSMOTE仅为那些“更靠近”边界的少数实例生成合成实例。
(这一部分是BorderlineSMOTE论文里的算法,还是比较简单的,个人觉得没必要特地去读论文,看看博客了解主要思想就好)

图4所示。基于Borderline实例的数据创建

另一方面,ADASYN使用一种系统方法,根据其分布[45]自适应地创建不同数量的合成数据。首先,计算需要为整个少数类生成的合成数据示例的数量:

在哪里β∈【0,1】是一个参数,用于在合成数据生成过程之后指定所需的平衡级别。接下来,对于每个例子xi∈Smin,根据欧几里得距离,计算k -最近邻的比率Γ,定义为:

其中,Δi是属于Smaj的xi的k近邻的例子数,Z是一个标准化常数,因此,Γi是一个分布函数(∑Γi=1)然后,确定每个xi∈ Smin需要生成的合成数据样本数量:

最后,对于每个xi∈Smin,根据公式(1)生成gissynthetic data samples . ADASYN算法的关键思想是使用密度分布?作为一种准则,通过自适应地改变不同少数例的权值来补偿偏态分布,从而自动确定每个少数例需要生成的合成样本数。

3.1.5 Sampling with Data Cleaning Techniques

使用数据清洗技术进行采样

数据清理技术,如Tomek链接,已被有效地应用,以消除重叠引入的采样方法。一般来说,Tomek链接[46]可以定义为相对类的一对距离最小的最近邻。例如:(xi,xj), xi ∈Smin;xj∈Smaj, 并且d(xi,xj)是xi和xj之间的距离,那么如果没有实例xk,则(xi,xj)对,称为Tomek链接,使d(xi,xk) < d(xi,xj)或d(xj,xk) < d(xi,xj)。这样,如果两个实例形成Tomek链接,那么其中一个实例是噪声,或者两个实例都在边界附近。因此,可以使用Tomek链接在综合抽样后“清除”类之间不需要的重叠,其中所有Tomek链接都被删除,直到所有距离最小的最近邻对都属于同一类。通过去除重叠的例子,可以在训练集中建立定义良好的类聚类,进而产生定义良好的分类规则,提高分类性能。这一领域的一些代表性工作包括OSS方法[42],压缩最近邻居规则和Tomek Links( CNN+Tomek Links)集成方法[22],基于编辑过的最近邻居(ENN)规则的邻居清理规则(NCL)[36],该规则删除了三个最近邻居中的两个不同的例子,SMOTE与ENN(SMOTE+ENN)的整合,SMOTE与Tomek的链接(SMOTE+Tomek)[22]。

图5为使用SMOTE和Tomek清理重叠数据点的典型过程。


图5所示。(a)原始数据集分布。(b) smote后数据集。(c)已查明的Tomek链接。(d)删除Tomek链接后的数据集。

图5a为人工不平衡数据集的原始数据集分布;注意少数和多数例子之间固有的重叠。图5b为SMOTE综合采样后的数据集分布。可以看出,SMOTE引入的重叠量增加了。在图5c中,标识了Tomek链接,用虚线框表示。最后,图5d为清理后的数据集。我们可以看到,该算法产生了更明确的类簇,这可能有助于提高分类性能。此外,图5所示的思想是重要的,因为它引入了对类集群的考虑;我们在下面讨论的基于聚类的抽样算法中进一步研究类的聚类。

3.1.6 Cluster-Based Sampling Method

基于聚类的抽样方法

基于聚类的采样算法特别有趣,因为它们提供了大多数简单和合成采样算法所没有的灵活性,因此可以针对非常具体的问题进行定制。在[27]中,提出了基于聚类的过采样(CBO)算法,将类内不平衡问题与类间不平衡问题串联起来有效地处理。

CBO算法采用了K-means聚类技术。这个过程从每个聚类(对于两个类)中随机选取K个样本,计算这些样本的平均特征向量,该特征向量被指定为聚类中心。然后,逐个给出剩余的训练示例,并对每个示例计算其与每个聚类中心之间的欧氏距离向量。然后将每个训练示例分配给显示最小距离矢量大小的聚类。最后,更新所有的集群平均值,并重复这个过程,直到所有的示例耗尽(也就是说,对于每个示例,实际上只有一个集群平均值被更新)。

图6说明了这些步骤。图6a为原始分布。在这里,大多数类有三个集群A、B和C (mmaj=3),每个集群分别有20、10和8个示例。少数族裔有两个群体,D和E (mmin=2),每个群体分别有8个和5个例子。图6b显示了每个集群的三个随机示例的集群平均值(用三角形表示),即k=3。图6b还显示了分别引入的5个示例x1、x2、x3、x4和x5的距离向量。图6c显示了根据引入的5个示例更新的聚类均值和聚类边界。一旦所有的例子都耗尽了,CBO算法通过过采样膨胀除最大的以外的所有多数类簇,以便所有多数类簇的大小与最大的类簇相同(即,簇B和簇C各有20个示例)。我们将过采样过程后的多数类例子的总数表示为NCBO,,NCBO=|Smaj|+|Emaj|(例如,在我们的例子中,NCBO=60)。然后,我们对少数集群进行过采样,使每个集群包含NCBO=mmintotal示例(即,在过采样过程后,每个少数集群D和E的总示例数为60/2=30)。图6d为应用CBO方法后的最终数据集。对比图6a,我们可以看到,最终的数据集对稀有概念的表达更强。我们还想指出,不同的过采样方法可以集成到CBO算法中。例如,Jo和Japkowicz[27]使用的是第3.1.1节中讨论的随机过采样方法,而我们图6中的例子使用的是合成采样。CBO的实证结果很好地揭示了不平衡学习问题的本质;也就是说,针对类内不平衡和类间不平衡是解决不平衡数据集的有效策略。


图6所示。(a)原始数据集分布。(b)样本距离向量和聚类均值。©新确定的分组方法和分组边界。(d)聚类过采样后的数据集。

3.1.7 Integration of Sampling and Boosting

采样与增压的集成

本文还研究了采样策略与集成学习技术的集成。例如,SMOTEBoost[47]算法就是基于SMOTE与Adaboost.M2相结合的思想。具体来说,SMOTEBoost在每次增强迭代中引入了合成采样。这样,每一个连续的分类器集成都更加关注少数类。由于每个分类器集成建立在不同的数据抽样上,最终的投票分类器被期望有一个扩大和定义良好的少数类决策区域。

另一种集成方法是DataBoost-IM[14]方法,它结合了[48]中引入的数据生成技术和AdaBoost。M1实现对少数类的高预测精度而不牺牲对多数类的精度。简单地说,DataBoost-IM是根据类间难学样本的比例生成合成样本。具体来说,对于一个数据集S,其对应的子集是Smin∈S和Smaj∈S和加权分布D表示每个示例xi∈S的相对学习难度,我们根据它们各自的权重对xi进行降序排序。然后我们选择顶部的|S|×error(t)示例来填充集合E,E ∈S,其中error(t)为当前学习的分类器的错误率。因此,E是两个类中难以学习(难)的样本的集合,并有子集Emin∈E和Emaj∈E.此外,由于少数班样本一般比多数班样本更难学习,因此预计|Emaj|≤|Emin|。

一旦识别出了困难的示例,DataBoost-IM就会根据一个两层流程来创建合成样本:首先,识别E中构成合成样本的“种子”,然后,基于这些样本生成合成数据。种子识别过程基于E和S中的类表示比率。多数类种子的数量ML定义为

和少数种子数MS定义为

然后继续生成合成集Esyn,子集Esmin?Esynand Esmaj∈Esyn,这样的|Esmin|=MS×|Smin|和|Esmaj|=ML×|Smaj|。然后Esynto扩充了集合S,提供了一个更均衡的类分布和更多的少数类的新实例。最后,考虑新加入的合成样本,对加权分布Dt进行了更新。

有证据表明,综合抽样方法在处理不平衡数据学习方面是有效的。然而,到目前为止讨论的数据生成方法是复杂的和计算昂贵的。Mease等人在第3.1.1节中讨论了随机过采样中“束缚”的基本问题,提出了一种更简单的技术来打破这些束缚:不是通过计算方法生成新数据,而是使用从随机过采样获得的重复数据,并对该数据引入扰动(“抖动”)来打破联系。由此产生的算法,带抖动的过/欠采样(JOUS-Boost),在对少数示例的每次迭代增强时引入独立和同分布(iid)噪声,过采样创建复制[38]。与合成采样相比,这个想法相对简单,而且还包含了增强集成的好处,以提高性能。实证研究表明,它提供了非常有效的结果,这表明,合成程序可以在不损害运行成本的情况下成功。

3.2 Cost-Sensitive Methods\for Imbalanced Learning

抽样方法试图通过考虑类例在分布中的代表性比例来平衡分布,而代价敏感学习方法则考虑与误分类示例[49],[50]相关的代价。代价敏感学习不是通过不同的抽样策略创建均衡的数据分布,而是通过使用不同的代价矩阵来描述错误分类任何特定数据示例的代价,从而针对不均衡学习问题。最近的研究表明,成本敏感学习与非平衡数据学习之间存在很强的联系;因此,代价敏感方法的理论基础和算法自然可以应用于不平衡学习问题[3],[20],[51]。此外,各种实证研究表明,在某些应用领域,包括某些特定的不平衡学习领域[11]、[52]、[53],代价敏感学习优于抽样方法。因此,成本敏感技术为不平衡学习领域提供了一种可行的替代抽样方法。

3.2.1 Cost-Sensitive Learning Framework

成本敏感学习框架

代价敏感学习方法的基础是代价矩阵的概念。代价矩阵可以看作是将样本从一类分类到另一类的代价的数值表示。例如,在一个二进制分类场景中,我们定义C(Min,Maj)是将多数阶级的例子误分类为少数阶级的代价C(Maj,Min)代表了相反情况下的成本。通常情况下,正确分类任何一类都没有代价,而错误分类少数例子的代价高于相反的情况,即C(Maj,Min)> C(Min,Maj).因此,代价敏感学习的目标是建立一个假设,使训练数据集的总代价最小化,这通常是贝叶斯条件风险。通过考虑C(i,j),这些概念很容易扩展到多类数据。i表示预测类I的代价当真正的类是j时,i,j∈Y={1,2,……,C}.

图7给出了多类问题的典型代价矩阵。在本例中,条件风险定义为:

其中P( j | x)表示给定示例x[49],[54]中每个类j的概率。

有许多不同的实现成本敏感学习的方法,但是,一般来说,大多数技术都属于三类。第一类技术将误分类成本应用于数据集,作为数据空间权重的一种形式;这些技术本质上是代价敏感的自举抽样方法,其中错误分类代价被用来选择最佳的训练分布进行归纳。第二类将成本最小化技术应用于集成方法的组合方案;该类由各种元技术组成,其中标准学习算法与集成方法相集成,以开发代价敏感的分类器。这两个类都有丰富的理论基础来证明它们的方法,成本敏感的数据空间权重方法构建在翻译定理[55]上,成本敏感的metatechnies构建在Metacost框架[54]上。事实上,现有的许多研究工作往往将Metacost框架与数据空间加权和自适应增强相结合,以获得更强的分类结果。为此,在下一节中,我们将这两类算法视为一类。最后一类技术将成本敏感的函数或特性直接合并到分类范式中,从而从本质上“适应”成本敏感框架到这些分类器中。因为这些技术中的许多都是特定于特定范例的,所以对于这类成本敏感的学习没有统一的框架,但是在许多情况下,适用于一个范例的解决方案通常可以抽象为适用于其他范例的解决方案。因此,在讨论这些类型的技术时,我们考虑一些特定于案例的方法。

3.2.2 Cost-Sensitive Dataspace Weighting with Adaptive Boosting

具有自适应增强的成本敏感数据空间权重

受到 A d a B o s t 算法 [56]、[57] 的推动,已经提出了几种用于不平衡学习的成本敏感提升方法。 [58] 中提出了三种成本敏感的提升方法,AdaC1、AdaC2 和 AdaC3,它们将成本项引入 AdaBoost 的权重更新策略。 AdaBoost。M1 方法的关键思想是在训练数据上迭代更新分布函数。 这样,在每次迭代 t :=1,2,……,T,其中 T 是总迭代次数的预设次数,分布函数 Dt依次更新并用于训练新假设:


是权重更新参数,
ht(xi)是假设ht的预测输出是对实例

。。。。。太难翻译了,这一小节先卡着吧。

3.2.3 Cost-Sensitive Decision Trees

代价敏感决策树

3.2.4 Cost-Sensitive Neural Networks

代价敏感神经网络

3.3 Kernel-Based Methods and Active Learning Methods for Imbalanced Learning

3.3.1 Kernel-Based Learning Framework

基于核的学习框架

3.3.2 Integration of Kernel Methods with Sampling Methods

核方法与采样方法的集成
社区中有许多作品将通用采样和集成技术应用于 SVM 框架。 一些示例包括具有不同成本的 SMOTE (SDC) 方法 [75] 和过/欠采样 SVM [77]、[78]、[79]、[80] 的集合。 例如,SDC 算法对不同的类使用不同的错误成​​本 [75] 来偏置 SVM,以便将决策边界从正实例移开,并使正实例分布更密集,以保证更明确的边界。 同时,[78]、[79] 中提出的方法通过修改数据分布而不修改底层 SVM 分类器来开发集成系统。 最后,Wang 和 Japkowicz [80] 建议使用非对称错误分类成本修改 SVM,以提高性能。 这个想法类似于 AdaBoost.M1 [56]、[57] 算法,因为它使用迭代程序来有效地修改训练观察的权重。 通过这种方式,可以基于这种顺序学习程序构建训练数据的修改版本,以提高分类性能。

[81]提出了颗粒支持向量机-重复欠采样算法(GSVM-RU),将支持向量机学习与欠采样方法相结合。该方法基于粒状支持向量机(GSVMs), GSVMs是在一系列论文中根据统计学习理论和粒状计算理论[82]、[83]、[84]的原理开发的。gsvm的主要特征有两个方面。首先,gsvm通过观察数据子集的局部显著性与其全局相关性之间的权衡,可以有效地分析数据的内在分布。其次,gsvm通过并行计算提高了svm的计算效率。在不平衡学习的背景下,GSVM- ru方法利用了GSVM,通过使用SVM本身进行欠采样的迭代学习过程[81]。具体地说,由于所有的少数(正)例子都被认为是有信息的,因此这些例子就形成了一个正信息颗粒。然后,利用正粒子和数据集中剩余的样本(即Smaj)建立线性支持向量机;将该支持向量机识别为支持向量的反例,即所谓的“负局部支持向量”(negative local support vector, NLSVs),形成一个负信息颗粒,并从原始训练数据中去除,得到更小的训练数据集。在此基础上,提出了一种新的线性支持向量机,并将新的NLSVs集合再次形成负粒子并从数据集中去除。这个过程重复多次,得到多个负面信息颗粒。最后,采用考虑全局相关性的聚合操作,从迭代生成的负信息颗粒中选择特定的样本集,然后将这些样本集与所有正样本结合,形成最终的支持向量机模型。因此,GSVM-RU方法将支持向量机本身作为欠采样机制,依次生成多个包含不同信息样本的信息颗粒,然后将这些信息颗粒组合起来形成最终的支持向量机进行分类。

3.3.3 Kernel Modification Methods for Imbalanced Learning

不平衡学习的核修改方法

除了前面提到的基于采样和集成的核学习方法,另一类基于核学习的研究更具体地关注支持向量机本身的机制;这组方法通常被称为内核修改方法。

核修改的一个例子是[85]中提出的基于正交前向选择(OFS)和正则化正交加权最小二乘(ROWLSs)估计的核分类器构造算法。该算法通过引入两类数据集处理不平衡数据分布的两个主要组件来优化基于核的学习模型中的泛化。第一个组件集成了遗漏一(LOO)交叉验证和曲线下面积(AUC)评价指标的概念(见第4.2节),开发了一个LOO-AUC目标函数作为最优核模型的选择机制。第二部分利用ROWLS算法中参数估计代价函数的代价敏感性,给少数类中的错误数据示例分配比多数类中的错误数据示例更大的权重。

内核修改的其他例子是调整支持向量机类边界的各种技术。这些方法采用边界对齐技术改进SVM分类[76],[86],[87]。例如在[76]中,提出了三种调整边界倾斜的算法方法:边界移动(boundary movement, BM)方法、有偏差惩罚(biased罚金(BPs))方法和类边界对齐(class boundary alignment, CBA)方法。此外,在[86]和[87]中,提出了核边界对齐(kernel-boundary alignment, KBA)算法,该算法基于根据不均衡的数据分布对核函数生成的核矩阵进行修正的思想。KBA方法的理论基础是自适应共形变换(ACT)方法,其中核函数上的共形变换是基于对特征空间距离和类不平衡比的考虑[88]。KBA方法在推广ACT基础的基础上,通过修改特征空间中的核矩阵来解决不平衡学习问题。理论分析和实证研究表明,该方法不仅具有较好的精度,而且通过对核矩阵的修正,可以应用于矢量数据和序列数据。

在一种更综合的基于核学习方法中,Liu和Chen[89]和[90]提出了基于总边际的自适应模糊支持向量机核方法(TAF-SVM),以提高支持向量机的鲁棒性。TAF-SVM的主要优点有三个方面。首先,TAF-SVM可以通过对训练数据进行“模糊化”来处理过拟合,其中某些训练示例根据其相对重要性进行不同的处理。其次,在TAF-SVM中嵌入了不同的代价算法,使算法能够自适应不同的数据分布偏态。最后,将传统的软边距最大化范式替换为总边距范式,该范式在构建最优分离超平面时考虑了分类错误和分类正确的数据实例。

对于不平衡学习,一个特别有趣的核修改方法是Newton改进的k-类别近端支持向量机(PSVM)[91]。这种方法本质上将软边界最大化范式转化为一个简单的由k个线性方程组成的线性或非线性分类器系统,其中k是类的数量。这种方法的一个主要优点是,它可以非常快地完成学习过程,因为这种方法只需要解这个简单的线性方程组就可以了。最后,Raskutti和Kowalcyzk[74]在存在极度不平衡的数据集的情况下,在支持向量机完全忽略其中一个类的情况下,考虑了采样和数据空间加权补偿技术。在这个过程中,为了平衡数据,使用了两种平衡模式:相似性检测器用于学习主要基于正例子的判别器,新奇检测器用于学习主要基于负例子的判别器。

社区中还存在其他几种核修改方法,包括大规模不平衡数据集的支持聚类机(scm)[92]、不平衡聚类的核神经毒气(KNG)算法[93]、基于k-最近邻分类器的P2PKNNC算法和P2P通信范式[94]。混合核机集成算法(HKME)包括一个二进制支持向量分类器(BSVC)和一个单类支持向量分类器(??SV C)的高斯径向基核函数[95],以及Adaboost相关向量机(RVM)[96]等。此外,我们想要指出的是,对于许多基于核的学习方法来说,上述3.3.2节和3.3.3节的两大类并没有严格的区别。在许多情况下,学习方法采用混合方法,其中采样和集成技术与内核修改方法集成,以提高性能。例如,[75]和[76]是不平衡学习的混合解决方案的很好的例子。在本节中,我们将基于内核的学习分为两部分,以便更好地表示和组织。

3.3.4 Active Learning Methods for Imbalanced Learning

不平衡学习的主动学习方法

对于不平衡学习问题,积极学习方法也在社区中进行了研究。传统上,主动学习方法用于解决与未标记训练数据相关的问题。然而,近年来,文献[97]、[98]、[99]、[100]对不平衡数据集主动学习的各种问题进行了讨论。此外,我们指出,不平衡学习的主动学习方法通常被集成到基于核的学习方法中;因此,我们以同样的观点讨论这两种方法。

基于支持向量机的主动学习旨在从看不见的训练数据中选择信息量最大的实例,对基于核的模型进行再训练[99],即最接近当前超平面的实例。图8显示了不平衡数据集选择过程的动机[98]。假设图8表示一个不平衡数据集的类别分布,其中阴影区域对应于边缘范围内的类别分布。在这种情况下,边界内数据的不平衡性比整个数据集的不平衡性要小得多。Ertekin等人[98]和[99]提出了一种高效的基于支持向量机的主动学习方法,该方法在主动学习的每个迭代步骤中查询一小部分数据,而不是查询整个数据集。在此过程中,在给定的训练数据上训练支持向量机,然后提取信息量最大的实例,并根据开发的超平面形成新的训练集。最后,该程序使用新的训练集和所有看不见的训练数据,使用LASVM在线支持向量机学习算法[101]对支持向量机进行主动再训练,以促进主动学习过程。

图8所示。边界内外数据不平衡率[98]

Ertekin等人[98]和[99]也指出,对于信息量最大的实例的搜索过程可能会耗费大量的计算时间,因为对于每一个看不见的数据实例,算法都需要重新计算每个实例与当前超平面之间的距离。为了解决这一问题,他们提出了一种方法,可以有效地从随机训练人群集中选择这类信息实例,以减少大规模不平衡数据集的计算成本[98],[99]。此外,本文还讨论了主动学习的早期停止准则,与随机样本选择方案相比,该准则可用于实现主动学习过程更快的收敛。

除了基于核的集成,基于采样技术的主动学习集成也在社区中得到了研究。例如,Zhu和Hovy[102]分析了主动学习的欠采样和过采样技术对词义消歧(WSD)不平衡学习问题的影响。本文研究的主动学习方法是基于不确定抽样方法的;这里的挑战是如何测量一个未标记实例的不确定性,以选择最大的不确定性实例来增强训练数据。在这种情况下,熵被用作确定不确定性的度量。此外,[102]还研究了基于最大置信度和最小误差的两种停止机制。仿真结果表明,在这种情况下,可以将最大置信度作为主动学习停止条件的上界,最小误差作为主动学习停止条件的下界。另一种主动学习抽样方法是[103]中提出的简单主动学习启发式(SALH)方法。该方法的核心思想是将随机子抽样方法与改进的Wilcoxon-Mann-Whitney (WMW)代价函数相结合,为遗传规划分类器的进化提供一个通用模型[103]。SALH方法的主要优点包括主动偏置学习数据分布的能力,鲁棒代价函数的存在,以及与适应度评价相关的计算代价的改进。通过六个数据集的仿真结果验证了该方法的有效性。

3.4 Additional Methods for Imbalanced Learning

不平衡学习的其他方法

在结束我们对不平衡学习的最先进的解决方案的回顾时,我们想要指出,处理不平衡学习问题的社区解决方案不仅仅是以抽样方法、成本敏感方法、基于核的方法和主动学习方法的形式出现的。例如,单班学习或新颖性检测方法也在[3]社区中引起了广泛的关注。一般来说,这类方法的目的是通过主要或仅使用某一类实例(即基于识别的方法)来识别概念的实例,而不是像传统学习方法(即,歧视归纳方法)。这方面的代表性工作包括一类支持向量机[74]、[104]、[105]、[106]、[107]、[108]和自关联(或自编码器)方法[109]、[110]、[111]、[112]。具体来说,Raskutti和Kowalcyzk[74]提出,单类学习在处理具有高特征空间维数的极不平衡的数据集时特别有用。此外,Japkowicz[109]提出了一种训练自关联器在输出层重构正类的方法,并提出在一定条件下,例如在多模态域,单类学习方法可能优于基于判别的方法。同时,Manevitz和Yousef[105]和[110]分别介绍了单类学习方法在基于支持向量机和自动编码器的文档分类领域的成功应用。在[111]中,对不同的采样方法和一类自关联方法进行了比较,对两种方法的优缺点给出了有益的建议。[112]研究了基于冗余压缩和非冗余区分技术的新颖性检测方法。最近,Lee和Cho[107]提出,新颖性检测方法对极端不平衡的数据集特别有用,而常规基于判别的归纳分类器适用于相对中等不平衡的数据集。

最近,Mahalanobis-Taguchi System (MTS)也被用于不平衡学习[113]。MTS最初是作为多变量数据的诊断和预测技术开发的[114],[115]。与大多数分类范式不同的是,MTS中的学习是通过使用单类示例而不是整个训练数据开发一个连续的测量量表来进行的。由于MTS模型的特点,预计该模型不会受到数据分布偏态的影响,从而提供鲁棒的分类性能。基于这些观察,Su和Hsiao[113]将MTS模型与逐步判别分析(SDA)、反向传播神经网络、决策树和支持向量机进行了比较,对不平衡学习进行了评估。这项工作显示了MTS在存在不平衡数据时的有效性。Su和Hsiao[113]也提出了一种基于Chebyshev定理的概率阈值方法,系统地确定MTS分类的合适阈值。

另一个重要的例子与不平衡数据和小样本容量的组合问题有关,如第2节所讨论的。[31]提出了两种主要的方法来解决这个问题。首先,采用秩度量代替传统的精度度量作为训练和模型选择的标准。等级指标通过更强调区分类本身而不是类的内部结构(特征空间连接)来帮助学习小样本和高维的不平衡数据。第二种方法是基于多任务学习方法。这里的想法是使用数据的共享表示来训练与主要任务相关的额外任务模型,从而通过向数据[31]添加额外的训练信息来扩大未充分表示的类的有效规模。

最后,我们还想指出,虽然目前社区的努力集中在两班不平衡问题上,但多班不平衡学习问题确实存在,而且同样重要。例如,在[7]中,一个成本敏感的增强算法AdaC2。提出了M1,用于解决多类的类不平衡问题。本文采用遗传算法求解各类的最优成本设置。在[8]中,基于迭代代价加权、数据空间扩展和随机集成梯度增强三个关键思想,提出了一种多类代价敏感学习的迭代方法。在[9]中,提出了一个极小极大模网络,将一个多类不平衡学习问题分解成一系列小的二类子问题。多类不平衡学习的其他工作包括多类代价敏感神经网络的缩放方法[10],[11],不平衡样本集集成知识(eKISS)方法[12]等。

很明显,现有的解决不平衡学习问题的方法是多方面的,而且相互关联。因此,用于评估这些解决方案的评估技术具有相似的特征。现在我们将注意力转向这些技术。

4 ASSESSMENT METRICS FOR IMBALANCED LEARNING

不平衡学习的4个评估指标

随着研究界继续开发更多的复杂和有前途的不平衡学习算法,拥有标准化的评估指标来恰当地评估这些算法的有效性变得至关重要。在本节中,我们将对不平衡学习的主要评估指标进行批判性回顾。

4.1 Singular Assessment Metrics

单一评估指标

传统上,最常用的指标是准确性和错误率。考虑一个基本的两类分类问题,设{p,n}为真实的正负类标和{Y,N}为预测的正负类标。然后,可以用混淆矩阵(列联表)表示分类性能,如图9所示。


在本文中,我们用少数阶级作为积极阶级,用多数阶级作为消极阶级。按照这个惯例,准确率和错误率被定义为


这些指标提供了描述给定数据集上分类器性能的简单方法。然而,在某些情况下,它们可能具有欺骗性,并且对数据的变化高度敏感。在最简单的情况下,如果给定的数据集包括5%的少数类例子和95%的多数类例子,将每个例子分类为多数类例子的简单方法将提供95%的准确率。从表面上看,整个数据集95%的准确率已经非常高了;然而,在同样的原因上,这种描述没有反映出一个事实,即0%的少数民族例子被识别。也就是说,在这种情况下,精确度度量没有提供关于分类器功能所需分类类型的足够信息。

在[14]、[20]、[47]、[51]、[58]、[116]、[117]、[118]等社区中,有很多关于不平衡学习场景下准确性有效性的代表性研究。这个基本问题可以通过评估图9中的混淆矩阵来解释:左边的列表示数据集的积极实例,右边的列表示消极实例。因此,这两列的比例代表了数据集的类分布,任何使用这两列值的度量将天生对失衡敏感。从(13)可以看出,accuracy使用两列的信息;因此,随着类分布的变化,即使分类器的基本性能没有变化,性能的度量也会变化。可以想象,在比较不同数据集上的不同学习算法的性能时,由于性能表示的不一致,这可能是一个非常棘手的问题。换句话说,在数据不平衡的情况下,当评估指标对数据分布敏感时,就很难进行相关分析。

在研究界,除了准确性之外,还经常采用其他评价指标对不平衡学习问题进行综合评价,即precision; recall; F-measure, G-mean.这些指标被定义为:


β是用来调整精确度和召回率的相对重要性的系数
,通常β=1


直观地说,精确度是对准确性的衡量(即,标记为正的例子中,有多少实际上被正确标记了),而回忆是对完整性的衡量(即,有多少正的类别的例子被正确标记了)。这两个指标,很像精度和误差,彼此之间的关系是相反的。然而,与准确性和误差不同,精度和召回对数据分布的变化并不敏感。快速检查精度和召回公式可以很容易地得出,精度(14)对数据分布很敏感,而召回(15)则不是。另一方面,回忆不是依赖于分布的说法几乎是多余的,因为仅仅基于回忆的断言是模棱两可的,因为回忆并不能提供有多少例子被错误地标记为正的见解。同样,精确度也不能断定有多少正例子被错误地标记了。然而,如果使用得当,精度和召回率可以有效地评估非平衡学习场景下的分类性能。具体地说,F-Measure度量(16)结合了精度和召回率作为分类有效性的衡量指标,根据召回率和召回率的加权重要性的比例由用户设置的系数β。

因此,F-Measure提供了比精度度量更深入的分类器功能,但是仍然对数据分布敏感。另一个度量,G-Mean度量(17),根据正精度和负精度的比率来评估归纳偏差的程度。F-Measure和G-Mean虽然比准确度有了很大的提高,但在回答有关分类评价的一般性问题时,仍然是无效的。例如,我们如何在一个样本分布范围内比较不同分类器的性能?

4.2 Receiver Operating Characteristics (ROC) Curves

(ROC)曲线

为了克服这些问题,ROC评估技术[119]、[120]利用了两项基于单列的评估指标,即真阳性率(TP率)和假阳性率(FP率)的比例,其定义为:

ROC图是通过绘制TP率和FP率形成的,ROC空间中的任何点都对应于给定分布上单个分类器的性能。ROC曲线是有用的,因为它提供了一个关于数据分布的分类的好处(由真阳性反映)和成本(由假阳性反映)之间的相对权衡的可视化表示。对于只输出离散类标签的硬类型分类器,每个分类器将产生一个(TP速率;F P速率)对,对应于ROC空间中的一个点。图10给出了一个典型的ROC曲线,A、B、C、D、E、F、G代表ROC点,曲线L1和L2代表ROC曲线。根据ROC图的结构,点A (0,1)表示一个完美的分类。一般来说,如果一个分类器在ROC空间中的对应点比另一个分类器在ROC空间中的对应点更靠近A点(ROC空间中的左上角),那么该分类器就比另一个分类器更好。任何一个对应的ROC点位于对角线上的分类器,如图10中的E点,都代表一个分类器,它将提供一个随机的类标签猜测(即随机分类器)。因此,任何出现在ROC空间右下角三角形的分类器的表现都不如随机猜测,如图10阴影区域中与点F相关的分类器。然而,一个比随机猜测性能差的分类器并不意味着分类器不能提供有用的信息。相反,分类器是信息性的;然而,信息的应用是错误的。例如,如果对分类器F的分类结果进行否定,即对每一个实例进行逆向分类决策,则会产生图10中的点G,即F的对称分类点。

图10所示。ROC曲线表示。

在软类型分类器的情况下,即输出一个连续数值来表示一个实例属于预测类的置信度的分类器,可以使用一个阈值在ROC空间中产生一系列点。该技术可以生成一条ROC曲线,而不是一个ROC点,如图10中的曲线L1和L2所示。为了评价不同分类器在这种情况下的表现,一般使用曲线下面积(area under the curve, AUC)作为评价标准[119]、[120]。例如,在图10中,与L1相比,L2 ROC曲线提供了更大的AUC测量值;因此,与曲线L2相关联的相应分类器比与曲线L1相关联的分类器具有更好的平均性能。当然,我们也应该注意到,在ROC空间的特定区域,高AUC分类器可能比低AUC分类器表现更差[119],[120]。我们还注意到,根据对硬类型分类器[54],[56],[121],[122]的固有特征的观察,让硬类型分类器提供软类型输出通常是非常直接的。

4.3 Precision-Recall (PR) Curves

Precision-Recall (PR)曲线

虽然ROC曲线为可视化绩效评估提供了强有力的方法,但它们也有自己的局限性。在高度倾斜的数据集的情况下,可以观察到,ROC曲线可能提供了一个过于乐观的看法,一个算法的性能。在这种情况下,PR曲线可以提供更翔实的绩效评估表现[123]。

给定如图9所示的混淆矩阵和精度(14)和召回率(15)的定义,PR曲线是通过绘制精度率除以召回率来定义的。PR曲线与ROC曲线具有很强的对应关系:当且仅当曲线在PR空间占主导地位时,曲线在ROC空间占主导地位[123]。然而,优化ROC空间下AUC的算法并不能保证优化PR空间下的AUC[123]。此外,ROC曲线的目标是在ROC空间的左上方,而PR空间的右上方则是占主导地位的PR曲线。PR空间还刻画了ROC空间中类似于凸包的曲线,即可实现的PR曲线[123]。因此,PR空间具有与ROC空间类似的所有好处,使其成为一种有效的评估技术。出于空间考虑,我们没有提供一个公关空间的代表性人物,而是将感兴趣的读者引导到[123]。

为了了解为什么PR曲线可以在高度不平衡的数据下提供更有信息的绩效评估表现,我们考虑一种负例子显著超过正例子数量的分布(即Nc> Pc)。在这种情况下,如果分类器的性能在误报数量上有很大的变化,那么它不会显著改变FP_rate,因为分母(Nc)非常大(见(18))。因此,ROC图将无法捕捉到这种现象。另一方面,精度度量考虑TP相对于TPþFP的比值(见图9和(14));因此,当误报数量急剧变化时,它可以正确捕捉分类器的性能[123]。因此,如本例所示,PR曲线是在存在高度倾斜数据时进行性能评估的一种有利技术。因此,目前社区的许多研究工作都使用PR曲线进行绩效评估和比较[124]、[125]、[126]、[127]。

4.4 Cost Curves

4.5 Assessment Metrics for Multiclass Imbalanced Learning

多类不平衡学习的评估指标

虽然本节到目前为止讨论的所有评估指标都适用于两类不平衡学习问题,但其中一些指标可以进行修改,以适应多类不平衡学习问题。例如,Fawcett[119]和[120]讨论了多类ROC图。对于n类问题,图9所示的混淆矩阵变为n ?N个矩阵,N个正确的分类(主要对角元素)和n2?N个错误(非对角线元素)。因此,我们必须管理n个效益和n2?n成本。一种简单的方法是生成n个不同的ROC图,每个类对应一个[119]、[120]。例如,考虑一个总共有W个类的问题,ROC图i;ROCi,使用类别wias作为正类别,所有其他类别作为负类别绘制分类性能图。然而,这种方法损害了对不平衡学习问题使用ROC分析的主要优势之一:它对班级倾斜变得敏感,因为在这种情况下,负类是n -1类(见4.1和4.2节)。

同样,在多类不平衡学习场景下,两类问题的AUC值变成多个两两可辨别值[131]。为了计算此类多类的auc, Provost和Domingos[121]提出了一种基于概率估计的方法:首先,生成每个参考类wiis的ROC曲线并测量它们各自的auc。其次,根据参考类在数据中的普遍程度,将所有的auc用权重系数进行组合。尽管这种方法在计算上非常简单,但由于前面提到的相同原因,它对类倾斜非常敏感。为了消除这一约束,Hand和Till[131]提出了M测度,这是一种基于AUC固有特征聚合所有类对的泛化方法。这种方法的主要优点是对类分布和误差代价不敏感。感兴趣的读者可以参考[131],了解该技术的更详细概述。

Learning from Imbalanced Data 翻译和阅读笔记相关推荐

  1. Learning to Track with Object Permanence阅读笔记

    Learning to Track with Object Permanence阅读笔记 (一) Tilte (二) Summary (三) Research Object (四) Problem S ...

  2. SCAN: learning to classify images without labels 阅读笔记

    SCAN: learning to classify images without labels 阅读笔记 概览 具体方法 实验设置 没用把论文的图片和公式放进来,太懒了 概览 Approach: A ...

  3. Object Detection in 20 Years A Survey-论文翻译(阅读笔记)

    Object Detection in 20 Years A Survey论文翻译(阅读笔记) 原文地址:[1905.05055] Object Detection in 20 Years: A Su ...

  4. Learning Memory-guided Normality for Anomaly Detection阅读笔记

    Learning Memory-guided Normality for Anomaly Detection阅读笔记 Abstract 我们解决异常检测的问题,即检测视频序列中的异常事件. 传统上,异 ...

  5. 《Deep Learning for Computer Vision withPython》阅读笔记-PractitionerBundle(第9 - 11章)

    9.使用HDF5和大数据集 到目前为止,在本书中,我们只使用了能够装入机器主存储器的数据集.对于小数据集来说,这是一个合理的假设--我们只需加载每一个单独的图像,对其进行预处理,并允许其通过我们的网络 ...

  6. 《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记

    个人总结 本文最大贡献是提出了注意力机制,相比于之前 NMT(Neural Machine Translation) 把整个句子压缩成一个固定向量表示的方法,对不同位置的目标单词计算每个输入的不同权重 ...

  7. RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph 阅读笔记

    RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph Improve ...

  8. PyramidBox 中文翻译及阅读笔记

    PyramidBox:一个环境辅助的单步人脸检测器 原文:Xu Tang 等. 2018. 文章目录 PyramidBox:一个环境辅助的单步人脸检测器 摘要 1 简介 2 相关工作 3 Pyrami ...

  9. [论文翻译]Deep Learning 翻译及阅读笔记

    论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep Learning Yann LeCun∗ Yoshua ...

最新文章

  1. 线阵相机和面阵相机的区别及应用
  2. lucene创建索引
  3. 什么是抽象类?抽象类的作用_揭秘!Java 泛型背后到底是什么?
  4. IC inbox toolbar button的determine逻辑
  5. RS-232转RS-485/422串口转换器产品介绍
  6. C# 操作MSSQL数据库类
  7. 《ArcGIS Runtime SDK for Android开发笔记》——(7)、示例代码arcgis-runtime-samples-android的使用...
  8. Web前端笔记(7)
  9. 实现深拷贝的常用方法
  10. [学习笔记]后缀平衡树
  11. 文件上传下载——sz和rz
  12. FZU2105 Digits Count(按位建线段树)题解
  13. 毕业前五年,我们应该把钱看轻
  14. 2011年计算机控制期末,2011计算机控制技术期末复习题详解
  15. 使用计算机终端情况,朗威V1.0计算机终端保密检查系统
  16. 【SVM回归预测】基于matlab布谷鸟算法优化SVM回归预测【含Matlab源码 1422期】
  17. Keil编译后——代码长度超过版本限制
  18. 1.R语言基本绘图分类
  19. adb安装apk程序
  20. 安兔兔html5测试跑分榜,2021年最新安兔兔手机性能跑分排行榜

热门文章

  1. Bug:LinkedTransferQueue的数据暂失和CPU爆满
  2. iOS 如何打包ipa
  3. Django Admin界面美化第三方插件库测评(多图)
  4. echarts折线图x轴不从0开始
  5. 【爬虫】爬取某彩票网站的历史数据,并进行分析
  6. Linux进程核心调度器之主调度器schedule--Linux进程的管理与调度(十九)
  7. 软件STM32cubeIDE下STM32F4xx使用32位定时器2(TIM2)用DMA+PWM点亮灯带WS2812-基础样例
  8. Unity/C# Socket框架学习遇到的相关方法
  9. 乐观短视频助手怎么样 想不想让你的短视频更加的吸引人
  10. 网卡是什么?有什么功能?