[论文]Clustering-Based Ensembles as an Alternative to Stacking

Clustering-Based Ensembles as an Alternative to Stacking

作者：Anna Jurek, Yaxin Bi, Shengli Wu, and Chris D. Nugent, Member, IEEE

杂志：IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 9, SEPTEMBER 2014

这篇论文是聚类集成问题，聚类框架是传统的框架，按论文的说法有点创新，是将传统的分类集成框架，后半部分用聚类集成代替，最终的框架便是：

前半部分通过多个分类器获得类标号。
后半部分通过将类标号看左样本新的属性，结合旧的属性作聚类集成（kmeans）。DBI 作为衡量指标。
最终样本的划分通过k中心。

　　这样简单的结合其实很多发表论文已经用过，我认为这篇论文主要创新点是后半部分的论述：

为什么结合了分类标号作为新的属性，能够提升准确度。

论文指出以前论文的做法其实属于经验主义，而该论文则通过理论来推论证明。

　　对于监督学习，这个其实便是按传统的分类集成框架，如下：

对于数据集，通过N 个分类器划分，得出了N 列结果。
将N 个分类器的结果，与数据集的属性结合，获得新的属性。
通过信息增益函数计算各个属性的信息熵。
选择最具代表性的属性。
对于提取后的属性，进行kmeans，聚类，通过DBIndex 衡量。
模型训练结束，样本的类标号通过k 中心划分。

　　模型的训练如上，在模型训练后，对于新输入的数据集，便只计算样本原来的属性。

下面是论文的论述：

对于连个确定的集合（validation sets）：

　　V1，V2，其实便是初始数据集通过了N个分类器之后的分类结果，作为样本的新属性C₁ to C_n，与就的属性 F₁ to F_k结合，这里的n k 小写意思是提取过的，P 是样本个数。

　　既然是讨论：为什么结合了分类标号作为新的属性，能够提升准确度。

　　那么便是一个添加了分类结果，一个没有添加，前者便是V1，后者便是V2.

　　问题便是：分别使用者两个确定集合，作kmeans 聚类，然后样本的类标号通过k 中心确定，为什么V1比V2准确率高。

　　分别对V1 V2进行kmeans 聚类，假设例子如下，左图的是V1，有图的是V2，其中的Y* Z* 便是类中心，可以看出V1 聚类成8个，V2聚类成7个：

　　怎么确定一个聚类结果的类标号？　因为这是监督学习，所以是知道样本的类标号的，那么便是一个类中属于哪个类标号多的，这个类标号便是类中心的标号。这句话比较重要，因为后边的论述是以其为基础。

　　当然并不是全部的都考虑，例如上面划分直线附近的点，容易导致overlap，所以引入了如下约束：

　　意思是便是只考虑距离类中心一定距离的样本点，其中d_C、d_F 表示样本X与中心Y* 之间的欧式距离，可以看出是拆开考虑，这两个临界值的取值如下：

　　对于第一条，每个类中心，在其类中的样本点，选出到中心点最大的距离（dc），每个类都有一个这样的距离，最后选择最小的作为θ1。

　　第二条，跟上面的类似的，只是衡量有dc 变成df，同时选择V1 V2 中较小的作为θ2.

　　这样的图示如下：

　　这样加了约束后，影响的是类中心的类标号确定，因为只考虑了约束内的样本点。在知道了类中心的类标号后，考虑分类阶段，对于一个不知道标号的样本X，通过原始属性F1 to Fk，来计算他离得最近的中心，然后用这个中心的类标号作为其标号，假设这个样本X的真实类标号为c_r,通过公式表示便是：

　　其中L₁，表示类的个数，上图中L₁ =8.

　　衡量准确度，便是衡量被预测样本X将要归属的类中心的标号是否与X 的真实类标号一样。通过概率表现如下：

其中：

V1：I II 是为了为了约束的，III约束X 将要被分配到的类中心。

　　这样来看，其实证明上面的概率比下面的概率大，即X最近的聚类中心，通过添加分类标号作为属性的话，更有可能被确认为c_r 标号。

　通过一定推导可以得出下面公式，推导过程见论文附录。

　　左边其实是V1 概率，右边是V2 概率。那么假如中间部分>=1，便可以得出左边>=右边。

　　上面这个条件的成立，只需要下面条件成立，推导过程也在附录中。

　　上面这条件的意思是：两个真实标号一样的样本，被分配到同一个分类中的概率，比两个真实标号不同的样本，分配到同一个分类中的概率大。

　　这其实是分类的作用了，论文中附录还证明了对于真实标号数目只有2时候，分类器的准确率达到0.5便可以使上式成立。

　　上面的是分类标号+样本属性 > 样本属性，同时论文还证明分类标号+样本属性 > 分类标号，只需满足一下条件：

　　意思是：两个真实标号一样的样本，比两个真实标号不一样的样本更相似。

转载于:https://www.cnblogs.com/Azhu/p/4213704.html

[论文]Clustering-Based Ensembles as an Alternative to Stacking相关推荐

【时序聚类】Neurocomputing:Multivariate time series clustering based on common principal component analysi
分析2019Neurocomputing 1区论文Multivariate time series clustering based on common principal component ana ...
文献记录(part43)--Multivariate time series clustering based on complex network
学习笔记,仅供参考,有错必纠关键词:多元时间序列:数据挖掘:聚类分析:复杂网络 Multivariate time series clustering based on complex networ ...
文献学习(part32)--Density Peak Clustering Based on Relative Density Optimization
学习笔记,仅供参考,有错必究文章目录 Density Peak Clustering Based on Relative Density Optimization 摘要相关工作算法 DPC算法 ...
Fast Fuzzy Clustering Based on Anchor Graph
Fast Fuzzy Clustering Based on Anchor Graph 基于锚图的快速模糊聚类 FFCAG 模糊聚类十分流行: 大规模问题复杂度高,限制发挥对噪声敏感 FFCAG算法 ...
SLAM学习 | 论文研读《ORB: an efficient alternative to SIFT or SURF》
SLAM学习 | 论文研读<ORB: an efficient alternative to SIFT or SURF> 1 文章翻译 Abstract(摘要) 1 Introductio ...
自动驾驶论文: VH-HFCN based Parking Slot and Lane Markings Segmentation on Panoramic Surround View
VH-HFCN based Parking Slot and Lane Markings Segmentation on Panoramic Surround View PDF: https://ar ...
Science上聚类算法论文——Clustering by fast search and find of density peaks翻译稿
通过快速寻找和找到密度高峰进行聚类 Alex Rodriguez and Alessandro Laio 聚类分析旨在依赖所要聚类元素之间的相似度以期将他们分成不同的类.该方法的应用领域范围包括航空航 ...
ICLR2023推荐系统投稿论文集锦
今年ICLR会议已经把审稿意见放出来了,特此整理了一下关于推荐系统相关的论文,总共筛选出24篇.值得说明的是,之前整理的顶会论文都是正式被接收的,比如NeurlPS2022推荐系统论文集锦与CIKM2 ...
800 篇顶会论文纵览推荐系统的前沿进展
© 作者|张君杰机构|中国人民大学高瓴人工智能学院引言:推荐系统作为人工智能领域最具有应用前景的方向之一,在学术界和工业界一直占据着重要地位.本文聚焦于推荐系统在学术研究方面的前沿进展,在之前整理 ...

[论文]Clustering-Based Ensembles as an Alternative to Stacking

[论文]Clustering-Based Ensembles as an Alternative to Stacking相关推荐

最新文章

热门文章