Clustering-Based Ensembles as an Alternative to Stacking

作者:Anna Jurek, Yaxin Bi, Shengli Wu, and Chris D. Nugent, Member, IEEE

杂志:IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 9, SEPTEMBER 2014

这篇论文是聚类集成问题,聚类框架是传统的框架,按论文的说法有点创新,是将传统的分类集成框架,后半部分用聚类集成代替,最终的框架便是:

  1. 前半部分通过多个分类器获得类标号。
  2. 后半部分通过将类标号看左样本新的属性,结合旧的属性作聚类集成(kmeans)。DBI 作为衡量指标。
  3. 最终样本的划分通过k中心。

  这样简单的结合其实很多发表论文已经用过,我认为这篇论文主要创新点是后半部分的论述:

为什么结合了分类标号作为新的属性,能够提升准确度。

论文指出以前论文的做法其实属于经验主义,而该论文则通过理论来推论证明。

  对于监督学习,这个其实便是按传统的分类集成框架,如下:

  1. 对于数据集,通过N 个分类器划分,得出了N 列结果。
  2. 将N 个分类器的结果,与数据集的属性结合,获得新的属性。
  3. 通过信息增益函数计算各个属性的信息熵。
  4. 选择最具代表性的属性。
  5. 对于提取后的属性,进行kmeans,聚类,通过DBIndex 衡量。
  6. 模型训练结束,样本的类标号通过k 中心 划分。

  模型的训练如上,在模型训练后,对于新输入的数据集,便只计算样本原来的属性。

下面是论文的论述:

对于连个确定的集合(validation sets):

  V1,V2,其实便是初始数据集通过了N个分类器之后的分类结果,作为样本的新属性C1 to Cn,与就的属性 F1 to Fk结合,这里的n k 小写意思是提取过的,P 是样本个数。

  既然是讨论:为什么结合了分类标号作为新的属性,能够提升准确度。

  那么便是一个添加了分类结果,一个没有添加,前者便是V1,后者便是V2.

  问题便是:分别使用者两个确定集合,作kmeans 聚类,然后样本的类标号通过k 中心确定,为什么V1比V2准确率高

  分别对V1 V2进行kmeans 聚类,假设例子如下,左图的是V1,有图的是V2,其中的Y* Z* 便是类中心,可以看出V1 聚类成8个,V2聚类成7个:

  怎么确定一个聚类结果的类标号? 因为这是监督学习,所以是知道样本的类标号的,那么便是一个类中属于哪个类标号多的,这个类标号便是类中心的标号。这句话比较重要,因为后边的论述是以其为基础。

  当然并不是全部的都考虑,例如上面划分直线附近的点,容易导致overlap,所以引入了如下约束:

  意思是便是只考虑距离类中心一定距离的样本点,其中dC、dF 表示样本X与中心Y* 之间的欧式距离,可以看出是拆开考虑,这两个临界值的取值如下:

  对于第一条,每个类中心,在其类中的样本点,选出到中心点最大的距离(dc),每个类都有一个这样 的距离,最后选择最小的作为θ1。

  第二条,跟上面的类似的,只是衡量有dc 变成df,同时选择V1 V2 中较小的作为θ2.

  这样的图示如下:

  这样加了约束后,影响的是类中心的类标号确定,因为只考虑了约束内的样本点。在知道了类中心的类标号后,考虑分类阶段,对于一个不知道标号的样本X,通过原始属性F1 to Fk,来计算他离得最近的中心,然后用这个中心的类标号作为其标号,假设这个样本X的真实类标号为c,通过公式表示便是:

  

  其中L1,表示类的个数,上图中L1 =8.

  衡量准确度,便是衡量被预测样本X将要归属的类中心的标号是否与X 的真实类标号一样。通过概率表现如下:

其中:

V1:I II 是为了为了约束的,III约束X 将要被分配到的类中心。

  这样来看,其实证明上面的概率比下面的概率大,即X最近的聚类中心,通过添加分类标号作为属性的话,更有可能被确认为cr 标号。

 通过一定推导可以得出下面公式,推导过程见论文附录。

  左边其实是V1 概率,右边是V2 概率。那么假如中间部分>=1,便可以得出左边>=右边。

  上面这个条件的成立,只需要下面条件成立,推导过程也在附录中。

  上面这条件的意思是:两个真实标号一样的样本,被分配到同一个分类中的概率,比两个真实标号不同的样本,分配到同一个分类中的概率大。

  这其实是分类的作用了,论文中附录还证明了对于真实标号数目只有2时候,分类器的准确率达到0.5便可以使上式成立。

  上面的 是分类标号+样本属性 > 样本属性,同时论文还证明 分类标号+样本属性 > 分类标号,只需满足一下条件:

  意思是:两个真实标号一样的样本,比两个真实标号不一样的样本更相似。

转载于:https://www.cnblogs.com/Azhu/p/4213704.html

[论文]Clustering-Based Ensembles as an Alternative to Stacking相关推荐

  1. 【时序聚类】Neurocomputing:Multivariate time series clustering based on common principal component analysi

    分析2019Neurocomputing 1区论文Multivariate time series clustering based on common principal component ana ...

  2. 文献记录(part43)--Multivariate time series clustering based on complex network

    学习笔记,仅供参考,有错必纠 关键词:多元时间序列:数据挖掘:聚类分析:复杂网络 Multivariate time series clustering based on complex networ ...

  3. 文献学习(part32)--Density Peak Clustering Based on Relative Density Optimization

    学习笔记,仅供参考,有错必究 文章目录 Density Peak Clustering Based on Relative Density Optimization 摘要 相关工作 算法 DPC算法 ...

  4. Fast Fuzzy Clustering Based on Anchor Graph

    Fast Fuzzy Clustering Based on Anchor Graph 基于锚图的快速模糊聚类 FFCAG 模糊聚类十分流行: 大规模问题复杂度高,限制发挥 对噪声敏感 FFCAG算法 ...

  5. SLAM学习 | 论文研读《ORB: an efficient alternative to SIFT or SURF》

    SLAM学习 | 论文研读<ORB: an efficient alternative to SIFT or SURF> 1 文章翻译 Abstract(摘要) 1 Introductio ...

  6. 自动驾驶论文: VH-HFCN based Parking Slot and Lane Markings Segmentation on Panoramic Surround View

    VH-HFCN based Parking Slot and Lane Markings Segmentation on Panoramic Surround View PDF: https://ar ...

  7. Science上聚类算法论文——Clustering by fast search and find of density peaks翻译稿

    通过快速寻找和找到密度高峰进行聚类 Alex Rodriguez and Alessandro Laio 聚类分析旨在依赖所要聚类元素之间的相似度以期将他们分成不同的类.该方法的应用领域范围包括航空航 ...

  8. ICLR2023推荐系统投稿论文集锦

    今年ICLR会议已经把审稿意见放出来了,特此整理了一下关于推荐系统相关的论文,总共筛选出24篇.值得说明的是,之前整理的顶会论文都是正式被接收的,比如NeurlPS2022推荐系统论文集锦与CIKM2 ...

  9. 800 篇顶会论文纵览推荐系统的前沿进展

    © 作者|张君杰 机构|中国人民大学高瓴人工智能学院 引言:推荐系统作为人工智能领域最具有应用前景的方向之一,在学术界和工业界一直占据着重要地位.本文聚焦于推荐系统在学术研究方面的前沿进展,在之前整理 ...

最新文章

  1. 中常用的数据结构_C语言实现常用数据结构:基本概念(第0篇
  2. vsphere---vmotion
  3. Linkify介绍 编辑textview超链接
  4. C语言中定义变量位置
  5. 显示当前没有家庭组计算机,已创建家庭组且加入家庭组,但显示“当前没有其他可用的家庭组计算机?”...
  6. 屠呦呦3年后再上热搜:女先生,世无双!
  7. Java多线程——线程范围内共享变量和ThreadLocal
  8. [独库骑行之奇山异石]丹霞地貌和雅丹地貌
  9. 与外系统连接时,需要考虑的问题
  10. Linux如何在系统启动时自动加载模块 .
  11. 使用scroll实现Elasticsearch数据遍历和深度分页
  12. 亚马逊服务器EC2无法ping通的问题
  13. 极简主义、人工智能与Readhub的产品哲学
  14. 仙人掌相关问题的处理方法(未完待续)
  15. “领域知识图谱的构建与应用”讲座学习笔记
  16. 网易云催生云计算更多可能性
  17. 在未提供官方驱动的Windows平板上安装Win10且完美驱动的解决方案
  18. JOL - Java Object Layout
  19. 安装的java打不开tsa文件_java – 具有https tsa的JDK 1.7 jarsigner不再有效
  20. dllexport和dllimport

热门文章

  1. spring在java工程中的运用
  2. 【python】类属性以及实例属性、实例方法的介绍
  3. Spring Boot教程(十六):Spring Boot集成shiro
  4. 接口测试如何在json中引用mock变量
  5. python 获取点击按钮名称_python如何获取tkinter组件的名称?比如按下多个Button中的一个,返回这个被按下的Button的text?...
  6. 中国最有名的8个程序员:不只雷军、张小龙,其中3人都当过首富!
  7. 10个实用的 ES6 方法
  8. 自学Web前端有哪些误区?自学Web需要掌握哪些技术
  9. 华为鸿蒙万物互联应用,为什么我需要万物互联? 鸿蒙能带来什么?
  10. mongodb最多数据库_2020 年3 月数据库排行:前 10 整体下行,出新技术了?