【论文阅读】Semi-supervised Multi-instance Learning with Density Peaks Clustering
1、基本信息
·题目:Semi-supervised Multi-instance Learning with Density Peaks Clustering
·期刊:山西大学学报(自然科学版)
2、摘要
本文提出了密度峰值聚类的半监督多示例学习(semi-supervised multi-instance learning,SMDP),主要包含三个步骤:
(1)通过高斯核(Gaussian Kernel)与五种距离度量方式,使用基于聚类的方法来找到ncn_{c}nc个最具代表性的包;
(2)通过计算包之间的距离,将每一个包转换为ncn_{c}nc维的实例。其中转换后的实例的第iii个属性值(value)为它与第iii个代表包之间的距离;
(3)使用ncn_{c}nc维数据表来构建分类器;
3、介绍
主要是关于MIL的发展以及MIL基本问题阐明:对于一个二分问题,若一个包中至少包含一个正实例,那么这个包就为正包;否则为负包。在大多数情况,我们预测或分类的是包的标签而并非实例标签。因其可适应性,MIL以及广泛应用于多种领域。
在过去的几年里,学者们提出了许许多多的MIL算法。这些算法都或多或少的将MIL问题转换为SIL问题。最简单的处理方法是:将一个包中的所有标签都贴上包的标签,并将其视为SIL问题。
本文提出了SMDP算法。由于是半监督学习,因此训练集不仅包含了有标签的包,也包含了不带标签的包。在本算法中:
(1)ncn_{c}nc个代表包是从训练集中选择出来;
(2)通过计算每一个包中实例于每一个代表包间的距离,将每一个包都转换成一个ncn_{c}nc维实例;
进行包分类时,首先需要将包转换为一个ncn_{c}nc维的实例,然后通过kNNkNNkNN算法根据标签数据来预测其标签。为了提高预测精确度,不仅需要找到那些最具代表性的包,而且需要找到最佳距离度量方法来计算不同数据集之间的距离。
·Selection of representatives
受到Density Peaks(DP)clustering算法的启发,本文设计了一种算法。使用高斯核来计算每个包的密度。使用预设cutoff distance将数据集分割,那些拥有着高密度的包就作为the master of a bag。通过计算每个包的密度以及与它们的master之间的距离来选出最具代表性的包(the representativeness)。
·Distance Measure
本文提出两种距离度量策略。对于文本数据集使用Hausdorff距离。中心是包中所有实例的平均向量。对于图像数据集,设计了min-bias distance(dbiad^{bia}dbia)度量方式。biasb_{ias}bias是在两个包中所有实例的平均向量。第iii个包与第jjj个包之间的距离dijbiad_{ij}^{bia}dijbia是第iii个包中所有实例的biasb_{ias}bias的最小值。
·本文的主要贡献:
(1)使用DP算法来进行代表包的选择,这提高了选择效率。
(2)Hausdorff距离与min-bias距离用于度量文本数据集与图像数据集。具有较强的适用性和较低的时间复杂度。
(3)与state-of-the-art算法进行比较,结果显示:SMDP算法在大多数MIL数据集上有着更好的性能。
4、预设
符号表示:
符号 | 含义 |
---|---|
X\mathbf XX | 实例空间 |
S\mathbf SS | 数据集 |
NNN | 数据集S\mathbf SS大小 |
ccc | 类别数量 |
Sk,k∈[1...c]\mathbf S_{k},k∈[1...c]Sk,k∈[1...c] | 第kkk个类的包 |
Sl,i∈[1...l]\mathbf S_{l},i∈[1...l]Sl,i∈[1...l] | 带标签的包 |
Su,i∈[l+1..N]\mathbf S_{u},i∈[l+1..N]Su,i∈[l+1..N] | 不带标签的包 |
Bi\mathbf B_{i}Bi | 第iii个包 |
yi,i∈[1..l]y_{i},i∈[1..l]yi,i∈[1..l] | Bi\mathbf B_{i}Bi的标签 |
lll | 数据集Sl\mathbf S_{l}Sl的大小 |
xij\mathbf x_{ij}xij | 包Bi\mathbf B_{i}Bi的第jjj个实例 |
dijd_{ij}dij | Bi\mathbf B_{i}Bi与Bj\mathbf B_{j}Bj之间的距离 |
dcd_{c}dc | 划分距离 |
rrr | dcd_{c}dc的比率 |
ρi\rho_{i}ρi | 包Bi\mathbf B_{i}Bi的密度 |
δiδ_{i}δi | 到Bi\mathbf B_{i}Bi上司的距离 |
ncn_{c}nc | 聚类中心数量 |
yi′,i∈[l+1..N]y_{i',i}∈[l+1..N]yi′,i∈[l+1..N] | 预测标签 |
·问题描述
半监督多示例学习问题,学习目标为预测包标签。
输入:S={(B1,y1),...,(Bl,yl),Bl+1,...,BN}\mathbf S=\left \{ (\mathbf B_{1},y_{1}),...,(\mathbf B_{l},y_{l}),\mathbf B_{l+1},...,\mathbf B_{N}\right \}S={(B1,y1),...,(Bl,yl),Bl+1,...,BN}.
输出:yi′,i∈[l+1..N]y'_{i},i∈[l+1..N]yi′,i∈[l+1..N].
优化目标:max∣{l≤i≤N∣yi′=yi}∣N−lmax\frac{\left | \left \{ l\le i\le N| y'_{i}=y_{i} \right \} \right | }{N-l}maxN−l∣{l≤i≤N∣yi′=yi}∣
其中,yiy_{i}yi与yi′y'_{i}yi′分别代表实际标签与预测标签。优化目标为最大化预测准确率。
·Density peaks(DP) clustering algorithm
DP聚类算法被广泛应用于单实例学习问题,通过计算实例密度来进行聚类。两个实例间的距离dij∗d_{ij}^{*}dij∗首先通过一些距离度量方式进行计算。对于每一个实例xix_{i}xi,DP距离算法不仅计算了它们的密度ρi\rho_{i}ρi,也计算了它们与最近实例(dij∗d_{ij}^{*}dij∗最小)之间的距离δiδ_{i}δi。
cutoff kernel表达式为:
ρic=∑j≠if(dij∗−dc)(1)\rho_{i}^{c}=\sum_{j≠i}^{}f(d_{ij}^{*}-d_{c}) \tag{1}ρic=j=i∑f(dij∗−dc)(1)
其中,f(x)f(x)f(x)的表达式为:
f(x)={1,x<00,x≥0(2)f(x)=\begin{cases} 1, & x<0 \\ 0, & x\ge 0 \end{cases}\tag{2}f(x)={1,0,x<0x≥0(2)
Gaussian kernel的表达式为:
ρig=∑j≠ie−(dij∗dc)2(3)\rho_{i}^{g}=\sum_{j≠i}^{}e^{-(\frac{d_{ij}^{*}}{d_{c}} )^{2}} \tag{3}ρig=j=i∑e−(dcdij∗)2(3)
每个实例与它们的master间距离计算公式:
δi={max(dij∗),ρi=maxj∈[1...N](ρj)minj∈[1..N]∣ρj>ρi(dij),otherwise∗(4)δ_{i}=\begin{cases} max(d_{ij}^{*}), & \rho_{i}=max_{j∈[1...N]}(ρ _{j}) \\ min_{j∈[1..N]|ρ _{j}>ρ _{i}}(d_{ij}^{}), & otherwise \end{cases}*\tag{4}δi={max(dij∗),minj∈[1..N]∣ρj>ρi(dij),ρi=maxj∈[1...N](ρj)otherwise∗(4)
那些具有最高的密度ρiρ _{i}ρi与距离δiδ_{i}δi往往称为聚类中心。因此,λiλ_{i}λi的定义式为:
λi=ρi×δi(5)λ_{i}=ρ _{i} \times δ_{i}\tag{5}λi=ρi×δi(5)
·现有的距离度量
三种off-the-shelf距离度量方式:平均豪斯多夫距离(average Hausdorff distance)daved^{ave}dave;最大豪斯多夫距离(maximal Hausdorff distance)dmaxd^{max}dmax;最小豪斯多夫距离(minimal Hausdorff distance)dmind^{min}dmin。对于包Bi={xi1,...,xi,ni}B_{i}=\left \{ x_{i1} ,...,x_{i,n_{i}}\right \}Bi={xi1,...,xi,ni}与包Bj={xj1,...,xi,nj}B_{j}=\left \{ x_{j1},...,x_{i,n_{j}} \right \}Bj={xj1,...,xi,nj},它们之间的距离计算公式为:
dijave=∑xiamaxxjbd(xia,xjb)+∑xjbminxiad(xia,xjb)ni+nj(6)d_{ij}^{ave}=\frac{\sum_{x_{ia}}^{} max_{x_{jb}}d(x_{ia},x_{jb})+\sum_{x_{jb}}^{}min_{x_{ia}}d(x_{ia},x_{jb}) }{n_{i}+n_{j}}\tag{6}dijave=ni+nj∑xiamaxxjbd(xia,xjb)+∑xjbminxiad(xia,xjb)(6)
dijmax=max{maxxiaminxjbd(xia,xjb),maxxjbminxiad(xia,xjb)}(7)d_{ij}^{max}=max\left \{ \max_{x_{ia}}\min_{x_{jb}}d(x_{ia},x_{jb}),\max_{x_{jb}}\min_{x_{ia}}d(x_{ia},x_{jb}) \right \} \tag{7}dijmax=max{xiamaxxjbmind(xia,xjb),xjbmaxxiamind(xia,xjb)}(7)
dijmin=minxia,xjbd(xia,xjb)(8)d_{ij}^{min}=\min_{x_{ia},x_{jb}}d(x_{ia},x_{jb})\tag{8}dijmin=xia,xjbmind(xia,xjb)(8)
其中,d(xia,xjb)d(x_{ia},x_{jb})d(xia,xjb)代表实例xiax_{ia}xia与xjbx_{jb}xjb之间的欧式距离(Euclidean distance)。
5、算法
·SMDP中的密度峰值聚类
将每个包视作原子型数据,通过一些距离度量方式计算包间距离dijd_{ij}dij。同时,包的密度ρi\rho_{i}ρi以及包到它的master的距离δiδ_{i}δi都是基于dijd_{ij}dij的。通过(3)式与(4)式计算。
一个包的master指的是离他最近且密度最大的那个包。通过ρi\rho_{i}ρi与dijd_{ij}dij我们能够计算出某个包的代表性。将ncn_{c}nc个具有最大代表的包作为代表包。
在二分类问题中,设置cutoff distance主要是为了能够使得包间最大距离翻倍。在多分类问题中,我们在那些标签一致的包中找到每一个类别的代表包。
·两种全新的距离度量方式
对于文本数据集,包中的中心实例能够作为包的代表。中心实例xiˉ\bar{x_{i}}xiˉ的表达式为:
xiˉ=∑j=1nixijni(9)\bar{x_{i}}=\frac{\sum_{j=1}^{n_{i}}x_{ij} }{n_{i}}\tag{9} xiˉ=ni∑j=1nixij(9)
提出virtual Hausdorff distanced(dvird^{vir}dvir),通过中心实例来计算距离而不是用包来计算。包BiB_{i}Bi与BjB_{j}Bj间的距离就通过它们的代表实例来计算。dvird^{vir}dvir的表达式为:
dijvir=d(xiˉ,xjˉ)(10)d^{vir}_{ij}=d(\bar{x_{i}},\bar{x_{j}})\tag{10}dijvir=d(xiˉ,xjˉ)(10)
对于图像数据集,提出min-bias distance(dbiad^{bia}dbia),用于计算xiax_{ia}xia与biasb_{ias}bias间距离。计算公式为:
dijbia=mini=1nid(xia,bias)(11)d_{ij}^{bia}=\min_{i=1}^{n_{i}}d(x_{ia},b_{ias})\tag{11}dijbia=i=1minnid(xia,bias)(11)
其中,bias=∑xiaxia+∑xjbxjbni+nkb_{ias}=\frac{\sum_{x_{ia}}^{} x_{ia}+\sum_{x_{jb}}^{}x_{jb} }{n_{i}+n_{k}}bias=ni+nk∑xiaxia+∑xjbxjb
【论文阅读】Semi-supervised Multi-instance Learning with Density Peaks Clustering相关推荐
- 近年多示例论文阅读(2): Multiple instance learning: A survey of problem characteristics and applications
目录 基本信息 核心思想 基本信息 题目:Multiple instance learning: A survey of problem characteristics and application ...
- 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding
[论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...
- 论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition
论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition code: https://gitee.com/mind ...
- 【论文阅读】Decision Transformer: Reinforcement Learning via Sequence Modeling
[论文阅读]Decision Transformer: Reinforcement Learning via Sequence Modeling 1 本文解决了什么问题? 本文将强化学习抽象为一个序列 ...
- 论文阅读笔记(8):Structured Sparse Subspace Clustering: A Joint Affinity Learning and Subspace Clustering
论文阅读笔记(8):Structured Sparse Subspace Clustering: A Joint Affinity Learning and Subspace Clustering F ...
- 论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》
是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...
- 【论文阅读】Gait Lateral Network: Learning Discriminative and Compact Representations for Gait Recognition
Gait Lateral Network: Learning Discriminative and Compact Representations for Gait Recognition 摘要: I ...
- 【论文阅读】Parametrized Deep Q-Networks Learning: RL with Discrete-Continuous Hybrid Action Space
[论文阅读-深度强化学习打王者荣耀]Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Contin ...
- 联邦学习论文阅读:Variational Federated Multi-Task Learning
这篇文章是探索联邦学习的框架下的多任务学习,稍后会整理一下之前的那篇multi task learning to be continued
最新文章
- keyshot材质中文目录_KeyShot10 Pro for Ma 苹果3D渲染动画制作软件 中文版下载
- 设计模式(10)-装饰模式详解(易懂)
- 【Excel】日常记录
- MooTools Class 使用、继承详解
- 官方认证:软件及信息技术从业者为新生代农民工
- django 1.8 官方文档翻译: 3-1-2 编写视图
- python#原创第13篇~while循环+答案
- 什么是Ultrabook
- C# 6 的新特性~
- 响应式织梦模板酒店客房类网站
- 苹果的产品开发流程介绍:带你认识世界最好的设计公司
- PQ 8.05中文版硬盘物理分区与删除分区(图文详解)
- 订阅者Subscriber的编程实现
- Codefoeces 581B Luxurious Houses
- php array_sli ce,JavaScript Array --map()、filter()、reduce()、forEach()函数的使用
- 第4章 凯伦.霍妮——神经症需要和倾向
- 安卓开发实战讲解!Android开发了解这些自然无惧面试,终局之战
- Windows 2000/XP的CMD命令教程(命令篇)
- Importance Weighted Adversarial Nets for Partial Domain Adaptation学习笔记
- 无人机集群的分布式协作 VI-SLAM