一、引言

集成学习:通过构建并结合多个学习器来完成学习任务。一般结构是:先产生一组“个体学习器”,再用某种策略将它们结合起来。结合策略主要有平均法、投票法和学习法等。

在集成学习之中,个体学习器之间的差异被称为“集成多样性”。如何理解集成多样性,是该学习范式的圣杯问题,即难以捉摸的、具有重大意义的目标。现有的集成多样性度量方法主要包括两类:一类是成对个体学习器的多样性度量,另一类是非成对个体学习器的多样性度量。本文主要对后一类进行讨论和总结。

二、准备工作

这部分声明一些基本的术语,因为下面的度量方法都是基于个体学习器展开计算的。个体学习器集合:;数据集:,其中分别为样本和类别标记,且

三、非成对多样性度量方法

1、Kohavi-Wolpert方差,简称KW度量,该度量由Kohavi和Wolpert在1996年提出。具体的计算方法为

其中,为样本的个数,为个体学习器的个数,个个体学习器对于样本分类正确的个数且

由该等式可以看出,视为常数,而最关键的地方在于:当每个样本的都为的一半时,KW度量达到最大,此时多样性最大;而当每个样本的全为0或时,KW度量达到最小,此时多样性最小。这很好理解,每个样本的如果都是0或的话,那么所有个体学习器的预测结果都是相同的;否则,如果每个样本的都是的一半的话,所有个体学习器的预测结果都有可能不一样,请注意,是有可能不一样,而不是绝对不一样。因此KW度量的多样性度量是存在一定的问题的。

2、评分者间一致度(Interrater Agreement),即度量。度量用于分析一组分类器的一致性,它被定义为

其中,为个体学习器的平均分类精度;而为指示函数,当括号中的条件为真时返回1,否则返回0。

度量主要反映了个体学习器之间预测结果的一致性。当预测结果完全一致时,则的值为1;如果学习器之间的一致程度比随机的还差时(最极端的情况为:每个样本被正确分类的结果为个体学习器的一半且平均精度为0.5),则。因此,度量的值越大,说明个体学习器的预测结果越一致,但多样性就越小;反之则越大。

3、熵(Entropy)。Cunningham和Carney在2000年提出的熵度量计算方法为

其中,表示将预测为的个体学习器占比 (占比的分母为)。显然,不需要知道个体学习器的正确率。

Shipp和Kuncheva在2002年提出的熵度量计算方法为

其中,为向上取整符号:如果为整数,则,如果不为整数,则的整数部分+1。的取值范围是[0, 1],取为0时表示完全一致,取为1时表示多样性最大。值得注意的是,没有使用对数函数,所以它不是经典的熵。尽管如此,该等式还是被用的更多,因为它更容易被实现而且计算速度也比较快。

4、困难度。假设对样本正确分类的个体学习器占比记为随机变量,那么困难度的计算方法为

其中,随机变量的取值范围为,而的概率分布可以通过个分类器在数据集上进行预测来估计。因此,随机变量的分布列为

...
...

度量了样本的分类困难度,越小,则多样性越大。如果使用直方图对上述分布列进行可视化,当样本较难被分类时,直方图的分布区域将主要散落在左边,而当样本较易被分类时,直方图的分布区域将主要散落在右边。

5、通用多样性。该度量的计算方法为

其中,,而代表随机挑选的分类器在随机挑选的样本上预测失败的概率。度量的取值范围是[0, 1],当=0时,多样性最小。该度量可以体现这样一个观点:当一个分类器预测错误伴随着另一个预测正确时、多样性最大。至于为什么能够做到这一点,我暂时还没有想明白,懂的同学请留言告诉我一下。

6、同时失败度量。该度量是通用多样性的修改版本,计算方法为

当所有分类器同时给出相同的预测结果时cfd=0,如果每个分类器犯错的样本都不相同则cfd=1。抱歉,还是没看太明白。

四、小结

上边的多样性计算方法都是基于分类器实现的。其中,除了和评分者间一致度这两个,其它的度量指标都与集成多样性是正比的关系。

其实笔者也是刚刚入门集成学习这个领域,目前还有很多不懂的地方,如果有大佬看到请多多指教。各位如果有不太明白的地方,也欢迎在评论区中留言,共同探讨探讨这个集成学习的非成对多样性。

五、参考文献

1、百度百科: 集成学习

2、周志华. 集成学习: 基础与算法[M]. 电子工业出版社, 2020.

集成学习-非成对多样性度量-个人总结相关推荐

  1. 集成学习之 如何进行多样性增强

    众所周知,对于集成学习的基学习器而言,他们的差异性越大,集成之后的效果就越好,那么,我们怎么增强不同模型的多样性呢? 1.样本扰动:比如Bagging中的自助法就是了,由于生成的不同数据集间有一定的不 ...

  2. 集成学习多样性度量总结

    上一篇博客讲了集成学习中成对的多样性度量,博文链接如下 https://blog.csdn.net/jodie123456/article/details/89341835 在本篇博文中,总结一下非成 ...

  3. 西瓜书习题 - 8.集成学习

    1.集成学习 1.下列关于集成学习描述错误的是哪个? 集成学习只能使用若干个相同类型的学习器 集成学习使用多个学习器解决问题 集成学习在许多比赛中取得了优异的成绩 集成学习在英文中是一个外来词 2.下 ...

  4. 集成学习中的软投票和硬投票机制详解和代码实现

    快速回顾集成方法中的软投票和硬投票 集成方法是将两个或多个单独的机器学习算法的结果结合在一起,并试图产生比任何单个算法都准确的结果. 在软投票中,每个类别的概率被平均以产生结果. 例如,如果算法 1 ...

  5. 【机器学习-西瓜书】八、集成学习:结合策略;多样性;总结

    推荐阅读: 总结:绝对多数投票法:误差-分歧分解 8.4 结合策略 关键词: 平均法:投票法:学习法;硬投票:软投票 一开始就说到,集成学习有两个关键,第一,个体学习器:第二,结合策略.对于个体学习器 ...

  6. [学习笔记]400G QSFP-DD PAM4 NRZ的成帧和非成帧测试, 400G/200G/100G/50G/40G/25G/10G 7种速率12种模式的端口实现

    目录 THOR-400G-7S-1P PAM4 & NRZ Speed-List PAM4 模式 QSFP-DD PAM4 400GEx1 QSFP-DD PAM4 200GEx2 QSFP- ...

  7. 集成学习——BAGGING和随机森林

    集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...

  8. Ensemble Learning(集成学习--AdaBoost,GBDT,Xgboost等)

    集成学习: 所谓兼听则明,偏信则暗. 集成学习本身并不是一个单纯的新算法,它的目的是通过结合多个其他的机器学习模型来完成某个一个任务以提升最终结果的准确率,即三个臭皮匠赛过诸葛亮.从该思想出发自然可以 ...

  9. 独家 | ARIMA/Sarima与LSTM的时间序列数据集成学习(附链接)

    作者:夏米莎·查特吉 Sharmistha Chatterjee 翻译:陈之炎 校对:吴金笛 本文约5500字,建议阅读10+分钟. 本文探讨了简单的ARIMA/Sarima与LSTM的时间序列数据集 ...

最新文章

  1. 『TensorFlow』命令行参数解析
  2. pythonurllib模块-python模块之urllib
  3. usb网络linux系统安装教程,Linux系统入门学习:如何在树莓派上安装USB网络摄像头...
  4. Docker镜像相关命令
  5. 超详细解读:神经语义解析的结构化表示学习 | 附代码分析
  6. python的类方法_python 类不实例化,调用类方法:@staticmethod 和 @classmethod
  7. antd 怎么用ajax,react+dva+antd接口调用方式
  8. mysql alter table_mysql alter table 修改表命令详细介绍
  9. Mac:彻底卸载MySQL
  10. 数据结构视频教程 -《数据结构(邓俊辉)》
  11. 魔抓编程_编程中的魔数是什么?
  12. c++ 软件下载 Dev cpp下载
  13. 小试牛刀1:制作一个简单的导航栏页面
  14. 怀旧--这些游戏你都玩过么?还记得么?
  15. 听说你也想修改IP归属地?
  16. and什么意思计算机SQL,SQL语句中 AND和OR的区别,or是什么意思,那and和它有什么区别?...
  17. 【小程序】常见系统API | 页面分享 | 位置信息 | 本地存储
  18. python文件比较,判断两个文件是否相同
  19. react 调用微信jsdk扫一扫
  20. Centos7开地狱已满服之插件安装

热门文章

  1. C语言-----标识符、关键字、常量、变量
  2. 2023 Emlog Monie简约好看主题模板
  3. jumpserver 节点部署_Jumpserver安装部署
  4. 疫情当前,各互联网公司的开工时间
  5. 广联达软件开发笔试题
  6. 如何编辑受保护的PDF文件
  7. 电商服务智能解决方案
  8. “我爸60岁还在工地干活”:父母仍在拼命,你哪有资格矫情?
  9. https nginx 换成其他端口_nginx 80端口下HTTPS请求跳转到指定其他端口
  10. 2021-09-08 使用easyexcel解析几十万条数据时报错