用于类不平衡数据的随机森林分位数分类器

阅读报告-A random forests quantile classifier for class imbalanced data

收录期刊：PATTERN RECOGNITION 中科院分区：2区大类学科：工程技术发表日期：2019.02.25
论文作者：O’Brien, R (O’Brien, Robert) ; Ishwaran, H (Ishwaran, Hemant)
作者机构：Division of Biostatistics,University of Miami,Miami,FL 33136,United States

关键词：

WeightedBayesclassifier 加权贝叶斯分类器
Response-basedsampling 基于响应的抽样
Class imbalance 类不均衡
Minority class 少数类
Random forests随机森林

重点：

1.新的分类器共同优化了不平衡数据的真实正面和真实负面率，同时最小化了加权风险。
2.它在罕见的少数例子，高维度和高度不平衡的数据的复杂设置中优于现有的随机森林方法。
3.对于不平衡数据的变量选择，其性能优越。
4.分类器对于多类不平衡数据也具有很强的竞争力。

1.类不平衡问题的相关定义
不平衡数据严重阻碍了学习算法的分类性能，类不平衡数据集的分类已经被认为是机器学习中的首要问题。

表示要学习的数据集

假设多数类label为0，少数类label为1

定义1 ：不平衡率IR

如果IR>>1,表示数据集不均衡。其中N0和N1分别表示多数类和少数类的基数。

类不平衡本身不是问题，也不一定会导致分类的不良泛化。如果训练数据使得类可以在特征空间中分离，则无论IR如何都将实现良好的分类。以下为表征不平衡数据的特征：

图1：不平衡数据集的特征
为了量化不平衡数据的复杂性，在少数类中的没一个样本周围使用k=5最近邻来评估两个类的差异

定义2 ：一个少数类样本是safe、borderline或者rare分别取决于它周围五个最近邻的样本有0到1，2到3，或者4到5个是多数类。

即safe：五个最近邻中有0到1个样本是多数类
borderline：五个最近邻中有2到3个样本是多数类
rare：五个最近邻中有4到5个样本是多数类

定义3 ：marginally imbalanced

如图所示：

即：对于数据集中的每个样本x是少数类的概率（Y=1），p（x）<<1/2，则乘数据集是marginally imbalanced。marginally imbalanced 的数据是在整个特征空间中少数类的概率接近于零的数据

定义4 ：conditionally imbalanced

如图所示：

即：A是属于数据集中的一个非空子集，在A中的某个样本属于少数类的概率约等于1，而且A外的样本的概率<<1/2.
与marginally imbalanced 的数据相反，当少数类的概率接近于1时，发生conditionally imbalanced .
注：marginally imbalanced和conditionally imbalanced都属于rare的类

处理不平衡的数据集的两种方式：
1.Data level methods：数据级别方法（不受欢迎的方式）
2.Algorithmic level methods：算法级别方法

2.使用基于密度的参数提出对类不平衡问题的新方法
（属于算法级别方法）
将分位数分类器（q-classifier）定义为:
其中q为预先指定的分位数阈值，0<q<1

当q=1/2时，即为贝叶斯分类器：

解释为什么不平衡数据对分类器具有挑战性

定义分类器的风险：
称为成本加权风险函数。这里，L0表示误分为多数类的代价，L1表示误分为少数类的代价

成本加权贝叶斯规则

定理1

对于任何分类器，成本加权贝叶斯规则是最优的，因为它的风险满足，它的风险等于：（1）
若l0=l1=1，成本加权贝叶斯分类器变为未加权的贝叶斯分类器。假设数据marginally imbalanced，则p（x）<<0.5，根据贝叶斯规则，=0，所以会将所有样本分类为0（即多数类标签），在错误的分类下，这是最优规则。贝叶斯误差等于：，基本上是完美的。

基于密度的方法

由以上可以看到分类错误为学习算法提供了强大的动力，以错误分类少数类样本为代价正确地为多数类样本进行分类显然是有问题的。
更好的方法是在两种类型的分类错误下要求分类器的良好性能。
定义分类器的TNR（真阴性率）和TPR（真阳性率）如下：
我们的目标是找到一个在不平衡问题中实现高TNR和TPR值的分类器，显然贝叶斯法则达不到这个目标。

定义5：一个分类器如果能够最小化TNR+TPR的值，则说这个分类器是TNR+TPR-optimal的。

为了实现TNR+TPR-optimal，引入基于密度的方法的分类器，

表示分配一个实例到少数类的概率密度。
表示分配一个实例到多数类的概率密度。
分类器基于特征的条件密度，而不是基于响应p（x）的条件密度，消除了少数类的影响。
是TNR+TPR最优：
等式左侧是普通分类器TNR+TPR的值，右侧是分类器TNR+TPR的值

q*-classifier

根据表格化简并重写分类器：

定义6：称为q*-classifier，而且

定理2：q*-classifier是TNR+TPR最优，而且也是错误分类代价l0=π，l1=1-π下加权风险最优的。

由（1）式，

在marginally和conditionally imbalanced的情况下，等式右边接近于0。而且不像贝叶斯规则达到了近0风险，定理2显示q*-classifier能够同时达到TPR和TNR最优。

定理2证明：

这是l0=π，l1=1-π的加权风险函数，通过定理1可通过加权贝叶斯最小化，相当于在l0 和l1下的q*-classifier。
3.Response-based sampling：平衡数据
克服不平衡数据的一种常见策略就是：对多数类进行欠采样。即对数据集的选择仅取决于Y的值而不是X的值，称为Response-based sampling。

定理3：在平衡的子采样下，子采样贝叶斯规则是TPR+TNR最优的。

定理4：在Response-based sampling中，三种方法等效，且都是TPR+TNR最优的。

4.应用于随机森林
在实践中，p（x）的值都是未知的，必须对其进行估计。
PFQ：将q*-classifier应用到随机森林
BRF：平衡随机森林
RF：标准随机森林
评估RFQ的性能：

RF的算法如下：

RFQ的算法是将第17行的分类器换为q*-classifier：
BRF算法：算法的第五行修改，选择的样本大小不是N，而是2N1，少数类和多数类被选择使用：，以保持类的平衡。
分类器使用q*-classifier分类器。

在不平衡数据集上的性能比较

使用143种不平衡数据集的不同集合对算法进行测试：
评估指标：TNR，TPR，G-mean

当TNR和TPR都接近于1，且两者差距小的时候，G-mean接近于1.

当q近似于π^时，G-mean接近于最大值。
实验结果：

BRF和RFQ明显优于其他算法。
5.RFQ明显优于BRF的条件
在上图中，BRF和RFQ的性能表现差不多，但在下图中：

y轴绘制了当rare的少数类比例、特征维度d、和不平衡比率IR改变时的G-mean的变化。
当rare少数类的比率增加，d增加和IR增加时，RFQ呈现明显的上升趋势。
6.讨论
1.引入了一个基于密度的分类器来学习不平衡数据，当q=q时，具有TPR+TNR最优性，称之为q-classifier。
2.实现了使用q*-classifier的随机森林，称为RFQ方法。
3.将RFQ方法与当前广泛使用的BRF（平衡随机森林方法）进行比较，发现RFQ有很强的竞争力。
4.观察到虽然BRF显著改善了少数类的分类，而且优于普通的随机森林算法，在标准不平衡数据集上其性能也与RFQ算法大致相同。但在高复杂性，高不平衡性和高维度的不平衡数据集中处于劣势。