阅读报告-A random forests quantile classifier for class imbalanced data

收录期刊:PATTERN RECOGNITION 中科院分区:2区 大类学科:工程技术 发表日期:2019.02.25
论文作者:O’Brien, R (O’Brien, Robert) ; Ishwaran, H (Ishwaran, Hemant)
作者机构:Division of Biostatistics,University of Miami,Miami,FL 33136,United States

关键词:

WeightedBayesclassifier 加权贝叶斯分类器
Response-basedsampling 基于响应的抽样
Class imbalance 类不均衡
Minority class 少数类
Random forests随机森林

重点:

1.新的分类器共同优化了不平衡数据的真实正面和真实负面率,同时最小化了加权风险。
2.它在罕见的少数例子,高维度和高度不平衡的数据的复杂设置中优于现有的随机森林方法。
3.对于不平衡数据的变量选择,其性能优越。
4.分类器对于多类不平衡数据也具有很强的竞争力。

1.类不平衡问题的相关定义
不平衡数据严重阻碍了学习算法的分类性能,类不平衡数据集的分类已经被认为是机器学习中的首要问题。

表示要学习的数据集

假设多数类label为0,少数类label为1

定义1 :不平衡率IR


如果IR>>1,表示数据集不均衡。其中N0和N1分别表示多数类和少数类的基数。

类不平衡本身不是问题,也不一定会导致分类的不良泛化。如果训练数据使得类可以在特征空间中分离,则无论IR如何都将实现良好的分类。以下为表征不平衡数据的特征:

图1:不平衡数据集的特征
为了量化不平衡数据的复杂性,在少数类中的没一个样本周围使用k=5最近邻来评估两个类的差异

定义2 :一个少数类样本是safe、borderline或者rare分别取决于它周围五个最近邻的样本有0到1,2到3,或者4到5个是多数类。

即safe:五个最近邻中有0到1个样本是多数类
borderline: 五个最近邻中有2到3个样本是多数类
rare:五个最近邻中有4到5个样本是多数类

定义3 :marginally imbalanced

如图所示:

即:对于数据集中的每个样本x是少数类的概率(Y=1),p(x)<<1/2,则乘数据集是marginally imbalanced。marginally imbalanced 的数据是在整个特征空间中少数类的概率接近于零的数据

定义4 :conditionally imbalanced

如图所示:

即:A是属于数据集中的一个非空子集,在A中的某个样本属于少数类的概率约等于1,而且A外的样本的概率<<1/2.
与marginally imbalanced 的数据相反,当少数类的概率接近于1时,发生conditionally imbalanced .
注:marginally imbalanced和conditionally imbalanced都属于rare的类

处理不平衡的数据集的两种方式:
1.Data level methods:数据级别方法(不受欢迎的方式)
2.Algorithmic level methods:算法级别方法

2.使用基于密度的参数提出对类不平衡问题的新方法
(属于算法级别方法)
将分位数分类器(q-classifier)定义为:
其中q为预先指定的分位数阈值,0<q<1

当q=1/2时,即为贝叶斯分类器:

解释为什么不平衡数据对分类器具有挑战性

定义分类器的风险:
称为成本加权风险函数。这里,L0表示误分为多数类的代价,L1表示误分为少数类的代价

成本加权贝叶斯规则

定理1

对于任何分类器,成本加权贝叶斯规则是最优的,因为它的风险满足,它的风险等于:(1)
若l0=l1=1,成本加权贝叶斯分类器变为未加权的贝叶斯分类器。假设数据marginally imbalanced,则p(x)<<0.5,根据贝叶斯规则,=0,所以会将所有样本分类为0(即多数类标签),在错误的分类下,这是最优规则。贝叶斯误差等于:,基本上是完美的。

基于密度的方法

由以上可以看到分类错误为学习算法提供了强大的动力,以错误分类少数类样本为代价正确地为多数类样本进行分类显然是有问题的。
更好的方法是在两种类型的分类错误下要求分类器的良好性能。
定义分类器的TNR(真阴性率)和TPR(真阳性率)如下:
我们的目标是找到一个在不平衡问题中实现高TNR和TPR值的分类器,显然贝叶斯法则达不到这个目标。

定义5:一个分类器如果能够最小化TNR+TPR的值,则说这个分类器是TNR+TPR-optimal的。

为了实现TNR+TPR-optimal,引入基于密度的方法的分类器,

表示分配一个实例到少数类的概率密度。
表示分配一个实例到多数类的概率密度。
分类器基于特征的条件密度,而不是基于响应p(x)的条件密度,消除了少数类的影响。
是TNR+TPR最优:
等式左侧是普通分类器TNR+TPR的值,右侧是分类器TNR+TPR的值

q*-classifier


根据表格化简并重写分类器:

定义6:称为q*-classifier,而且

定理2:q*-classifier是TNR+TPR最优,而且也是错误分类代价l0=π,l1=1-π下加权风险最优的。

由(1)式,

在marginally和conditionally imbalanced的情况下,等式右边接近于0。而且不像贝叶斯规则达到了近0风险,定理2显示q*-classifier能够同时达到TPR和TNR最优。

定理2证明:


这是l0=π,l1=1-π的加权风险函数,通过定理1可通过加权贝叶斯最小化,相当于在l0 和l1下的q*-classifier。
3.Response-based sampling:平衡数据
克服不平衡数据的一种常见策略就是:对多数类进行欠采样。即对数据集的选择仅取决于Y的值而不是X的值,称为Response-based sampling。

定理3:在平衡的子采样下,子采样贝叶斯规则是TPR+TNR最优的。

定理4:在Response-based sampling中,三种方法等效,且都是TPR+TNR最优的。

4.应用于随机森林
在实践中,p(x)的值都是未知的,必须对其进行估计。
PFQ:将q*-classifier应用到随机森林
BRF:平衡随机森林
RF:标准随机森林
评估RFQ的性能:

RF的算法如下:

RFQ的算法是将第17行的分类器换为q*-classifier:
BRF算法:算法的第五行修改,选择的样本大小不是N,而是2N1,少数类和多数类被选择使用:,以保持类的平衡。
分类器使用q*-classifier分类器。

在不平衡数据集上的性能比较

使用143种不平衡数据集的不同集合对算法进行测试:
评估指标:TNR,TPR,G-mean

当TNR和TPR都接近于1,且两者差距小的时候,G-mean接近于1.

当q近似于π^时,G-mean接近于最大值。
实验结果:

BRF和RFQ明显优于其他算法。
5.RFQ明显优于BRF的条件
在上图中,BRF和RFQ的性能表现差不多,但在下图中:

y轴绘制了当rare的少数类比例、特征维度d、和不平衡比率IR改变时的G-mean的变化。
当rare少数类的比率增加,d增加和IR增加时,RFQ呈现明显的上升趋势。
6.讨论
1.引入了一个基于密度的分类器来学习不平衡数据,当q=q时,具有TPR+TNR最优性,称之为q-classifier。
2.实现了使用q*-classifier的随机森林,称为RFQ方法。
3.将RFQ方法与当前广泛使用的BRF(平衡随机森林方法)进行比较,发现RFQ有很强的竞争力。
4.观察到虽然BRF显著改善了少数类的分类,而且优于普通的随机森林算法,在标准不平衡数据集上其性能也与RFQ算法大致相同。但在高复杂性,高不平衡性和高维度的不平衡数据集中处于劣势。

用于类不平衡数据的随机森林分位数分类器相关推荐

  1. 数据不平衡处理_如何处理多类不平衡数据说不可以

    数据不平衡处理 重点 (Top highlight) One of the common problems in Machine Learning is handling the imbalanced ...

  2. 随机森林图像分类实战:随机森林分类聚类(Kmeans)降维后的数据、随机森林分类聚类(Kmeans)降维后的合成(append)数据

    随机森林图像分类实战:随机森林分类聚类(Kmeans)降维后的数据.随机森林分类聚类(Kmeans)降维后的合成(append)数据 目录

  3. python预测随机数据_随机森林预测

    Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 当涉及到预测数据(时间序列或其他类型的序列)时,人们会关注基本回归.ARIMA.ARMA.GARCH,甚至 ...

  4. python大数据之随机森林(回归与分类)

    随机森林在大数据运用中非常的常见,它在预测和回归上相比于SVM,多元线性回归,逻辑回归,多项式回归这些,有着比较好的鲁棒性. 随机森林是一个用随机方式建立的,包含多个决策树的分类器.其输出的类别是由各 ...

  5. 研究型论文_用于优化入侵检测类不平衡数据集中SMOTE比率的机器学习方法(英文论文)

    文章目录 Machine-Learning Approach to Optimize SMOTE Ratio in Class Imbalance Dataset for Intrusion Dete ...

  6. xgboost、随机森林和逻辑回归的优缺点

    转载自https://www.nowcoder.com/ta/review-ml/review?query=&asc=true&order=&page=99 Xgboost: ...

  7. 随机森林(Random Forest)算法

    目录 简介 决策树 概念 定义 如何构建? 优点 缺点 集成学习 特点 错误率 种类 自主采样法(Boostrap Sampling) 概念 拓展 随机森林 概念 优点 缺点 简介 一种分类算法,属于 ...

  8. 【机器学习】随机森林

    来源 | AI小白入门 作者 | 文杰 编辑 | yuquanle 完整代码见:原文链接 本文介绍了结合集成学习思想的随机森林算法.首先介绍了集成学习中两种经典的集成思想Bagging和Boostin ...

  9. 基于sklearn随机森林算法对鸢尾花数据进行分类

    随机森林定义 随机森林(Random Forest,RF),顾名思义就是将多棵相互之间并无关联的决策树整合起来形成一个森林,再通过各棵树投票或取均值来产生最终结果的分类器.在介绍随机森林前需要了解几个 ...

最新文章

  1. 深圳一普通中学老师工资单曝光,秒杀程序员,网友:真酸~
  2. java实验常见错误_java 实验4 异常
  3. access字段类型varchar_数据库即将被淘汰的几种数据类型,烦恼还是解脱?
  4. python 反爬策略_如何应对网站反爬虫策略?如何高效地爬大量数据?
  5. IDEA启动Tomcat报错Address localhost:1099 is already in use解决办法
  6. iOS开发网络篇—大文件的多线程断点下载
  7. %@ include file=%与jsp:include page=/
  8. 解决Excel 闪退问题(如果你最近装了visio的话点进来)
  9. AI加持,云之家V10让移动办公充满无限想象
  10. 凯立德导航android历史版本,凯立德导航升级2020版
  11. 32位,64位系统寻址空间及最大内存
  12. 使用计算机过程中 你有哪些有效措施防范计算机病毒,计算机病毒防范措施主要有什么...
  13. 汕头大学计算机转专业,2021年汕头大学大一新生转专业及入学考试相关规定
  14. LIN自动雨刮:雨量传感器原理与安装
  15. 阿里主流开源框架大汇总
  16. Linux之更改配置文件永久修改IP地址
  17. 使用自己的微信账号登录掘金社区
  18. 二叉树排序和绘制技巧
  19. NFT Insider #87:The Sandbox 收购游戏开发工作室 Sviper,GHST 大迁徙即将拉开帷幕
  20. 虚拟服务器安装管理工具,easypanel虚拟主机管理面板v1.9.2安装版-虚拟主机管理软件...

热门文章

  1. Android探索之旅(第十四篇)Android中实现炫酷效果的Demo(持续收录中......)
  2. CSS 魔法 | 超强的文本超出提示效果
  3. 2020年不容错过的10本大咖之作 | 你最Pick哪一本?
  4. DDS之DCPS Infrastructure模块
  5. python列表冒泡排序,Python实现简单的列表冒泡排序和反转列表操作示例
  6. 教你一招轻松搞定广告配音
  7. 算法 | 快速搞定八种排序算法与代码实现
  8. 微信小程序如何引入外部字体包
  9. S32K14x芯片bootloader独立flash驱动功能
  10. 有限状态机(FSM)