【论文阅读】Semi-supervised Multi-instance Learning with Density Peaks Clustering

1、基本信息

·题目：Semi-supervised Multi-instance Learning with Density Peaks Clustering

·期刊：山西大学学报（自然科学版）

2、摘要

本文提出了密度峰值聚类的半监督多示例学习（semi-supervised multi-instance learning,SMDP），主要包含三个步骤：
（1）通过高斯核（Gaussian Kernel）与五种距离度量方式，使用基于聚类的方法来找到ncn_{c}nc个最具代表性的包；
（2）通过计算包之间的距离，将每一个包转换为ncn_{c}nc维的实例。其中转换后的实例的第iii个属性值（value）为它与第iii个代表包之间的距离；
（3）使用ncn_{c}nc维数据表来构建分类器；

3、介绍

主要是关于MIL的发展以及MIL基本问题阐明：对于一个二分问题，若一个包中至少包含一个正实例，那么这个包就为正包；否则为负包。在大多数情况，我们预测或分类的是包的标签而并非实例标签。因其可适应性，MIL以及广泛应用于多种领域。
在过去的几年里，学者们提出了许许多多的MIL算法。这些算法都或多或少的将MIL问题转换为SIL问题。最简单的处理方法是：将一个包中的所有标签都贴上包的标签，并将其视为SIL问题。
本文提出了SMDP算法。由于是半监督学习，因此训练集不仅包含了有标签的包，也包含了不带标签的包。在本算法中：
（1）ncn_{c}nc个代表包是从训练集中选择出来；
（2）通过计算每一个包中实例于每一个代表包间的距离，将每一个包都转换成一个ncn_{c}nc维实例；
进行包分类时，首先需要将包转换为一个ncn_{c}nc维的实例，然后通过kNNkNNkNN算法根据标签数据来预测其标签。为了提高预测精确度，不仅需要找到那些最具代表性的包，而且需要找到最佳距离度量方法来计算不同数据集之间的距离。

·Selection of representatives

受到Density Peaks（DP）clustering算法的启发，本文设计了一种算法。使用高斯核来计算每个包的密度。使用预设cutoff distance将数据集分割，那些拥有着高密度的包就作为the master of a bag。通过计算每个包的密度以及与它们的master之间的距离来选出最具代表性的包（the representativeness）。

·Distance Measure

本文提出两种距离度量策略。对于文本数据集使用Hausdorff距离。中心是包中所有实例的平均向量。对于图像数据集，设计了min-bias distance（dbiad^{bia}dbia）度量方式。biasb_{ias}bias是在两个包中所有实例的平均向量。第iii个包与第jjj个包之间的距离dijbiad_{ij}^{bia}dijbia是第iii个包中所有实例的biasb_{ias}bias的最小值。

·本文的主要贡献：

（1）使用DP算法来进行代表包的选择，这提高了选择效率。
（2）Hausdorff距离与min-bias距离用于度量文本数据集与图像数据集。具有较强的适用性和较低的时间复杂度。
（3）与state-of-the-art算法进行比较，结果显示：SMDP算法在大多数MIL数据集上有着更好的性能。

4、预设

符号表示：

符号	含义
X\mathbf XX	实例空间
S\mathbf SS	数据集
NNN	数据集S\mathbf SS大小
ccc	类别数量
Sk,k∈[1...c]\mathbf S_{k},k∈[1...c]Sk,k∈[1...c]	第kkk个类的包
Sl,i∈[1...l]\mathbf S_{l},i∈[1...l]Sl,i∈[1...l]	带标签的包
Su,i∈[l+1..N]\mathbf S_{u},i∈[l+1..N]Su,i∈[l+1..N]	不带标签的包
Bi\mathbf B_{i}Bi	第iii个包
yi,i∈[1..l]y_{i},i∈[1..l]yi,i∈[1..l]	Bi\mathbf B_{i}Bi的标签
lll	数据集Sl\mathbf S_{l}Sl的大小
xij\mathbf x_{ij}xij	包Bi\mathbf B_{i}Bi的第jjj个实例
dijd_{ij}dij	Bi\mathbf B_{i}Bi与Bj\mathbf B_{j}Bj之间的距离
dcd_{c}dc	划分距离
rrr	dcd_{c}dc的比率
ρi\rho_{i}ρi	包Bi\mathbf B_{i}Bi的密度
δiδ_{i}δi	到Bi\mathbf B_{i}Bi上司的距离
ncn_{c}nc	聚类中心数量
yi′,i∈[l+1..N]y_{i',i}∈[l+1..N]yi′,i∈[l+1..N]	预测标签

·问题描述

半监督多示例学习问题，学习目标为预测包标签。
输入：S={(B1,y1),...,(Bl,yl),Bl+1,...,BN}\mathbf S=\left \{ (\mathbf B_{1},y_{1}),...,(\mathbf B_{l},y_{l}),\mathbf B_{l+1},...,\mathbf B_{N}\right \}S={(B1,y1),...,(Bl,yl),Bl+1,...,BN}.
输出：yi′,i∈[l+1..N]y'_{i},i∈[l+1..N]yi′,i∈[l+1..N].
优化目标：max∣{l≤i≤N∣yi′=yi}∣N−lmax\frac{\left | \left \{ l\le i\le N| y'_{i}=y_{i} \right \} \right | }{N-l}maxN−l∣{l≤i≤N∣yi′=yi}∣
其中，yiy_{i}yi与yi′y'_{i}yi′分别代表实际标签与预测标签。优化目标为最大化预测准确率。

·Density peaks(DP) clustering algorithm

DP聚类算法被广泛应用于单实例学习问题，通过计算实例密度来进行聚类。两个实例间的距离dij∗d_{ij}^{*}dij∗首先通过一些距离度量方式进行计算。对于每一个实例xix_{i}xi，DP距离算法不仅计算了它们的密度ρi\rho_{i}ρi,也计算了它们与最近实例（dij∗d_{ij}^{*}dij∗最小）之间的距离δiδ_{i}δi。
cutoff kernel表达式为：
ρic=∑j≠if(dij∗−dc)(1)\rho_{i}^{c}=\sum_{j≠i}^{}f(d_{ij}^{*}-d_{c}) \tag{1}ρic=j=i∑f(dij∗−dc)(1)
其中，f(x)f(x)f(x)的表达式为：
f(x)={1,x<00,x≥0(2)f(x)=\begin{cases} 1, & x<0 \\ 0, & x\ge 0 \end{cases}\tag{2}f(x)={1,0,x<0x≥0(2)
Gaussian kernel的表达式为：
ρig=∑j≠ie−(dij∗dc)2(3)\rho_{i}^{g}=\sum_{j≠i}^{}e^{-(\frac{d_{ij}^{*}}{d_{c}} )^{2}} \tag{3}ρig=j=i∑e−(dcdij∗)2(3)
每个实例与它们的master间距离计算公式：
δi={max(dij∗),ρi=maxj∈[1...N](ρj)minj∈[1..N]∣ρj>ρi(dij),otherwise∗(4)δ_{i}=\begin{cases} max(d_{ij}^{*}), & \rho_{i}=max_{j∈[1...N]}(ρ _{j}) \\ min_{j∈[1..N]|ρ _{j}>ρ _{i}}(d_{ij}^{}), & otherwise \end{cases}*\tag{4}δi={max(dij∗),minj∈[1..N]∣ρj>ρi(dij),ρi=maxj∈[1...N](ρj)otherwise∗(4)
那些具有最高的密度ρiρ _{i}ρi与距离δiδ_{i}δi往往称为聚类中心。因此，λiλ_{i}λi的定义式为：
λi=ρi×δi(5)λ_{i}=ρ _{i} \times δ_{i}\tag{5}λi=ρi×δi(5)

·现有的距离度量

三种off-the-shelf距离度量方式：平均豪斯多夫距离（average Hausdorff distance）daved^{ave}dave；最大豪斯多夫距离（maximal Hausdorff distance）dmaxd^{max}dmax；最小豪斯多夫距离（minimal Hausdorff distance）dmind^{min}dmin。对于包Bi={xi1,...,xi,ni}B_{i}=\left \{ x_{i1} ,...,x_{i,n_{i}}\right \}Bi={xi1,...,xi,ni}与包Bj={xj1,...,xi,nj}B_{j}=\left \{ x_{j1},...,x_{i,n_{j}} \right \}Bj={xj1,...,xi,nj}，它们之间的距离计算公式为：
dijave=∑xiamaxxjbd(xia,xjb)+∑xjbminxiad(xia,xjb)ni+nj(6)d_{ij}^{ave}=\frac{\sum_{x_{ia}}^{} max_{x_{jb}}d(x_{ia},x_{jb})+\sum_{x_{jb}}^{}min_{x_{ia}}d(x_{ia},x_{jb}) }{n_{i}+n_{j}}\tag{6}dijave=ni+nj∑xiamaxxjbd(xia,xjb)+∑xjbminxiad(xia,xjb)(6)
dijmax=max{max⁡xiamin⁡xjbd(xia,xjb),max⁡xjbmin⁡xiad(xia,xjb)}(7)d_{ij}^{max}=max\left \{ \max_{x_{ia}}\min_{x_{jb}}d(x_{ia},x_{jb}),\max_{x_{jb}}\min_{x_{ia}}d(x_{ia},x_{jb}) \right \} \tag{7}dijmax=max{xiamaxxjbmind(xia,xjb),xjbmaxxiamind(xia,xjb)}(7)
dijmin=min⁡xia,xjbd(xia,xjb)(8)d_{ij}^{min}=\min_{x_{ia},x_{jb}}d(x_{ia},x_{jb})\tag{8}dijmin=xia,xjbmind(xia,xjb)(8)
其中，d(xia,xjb)d(x_{ia},x_{jb})d(xia,xjb)代表实例xiax_{ia}xia与xjbx_{jb}xjb之间的欧式距离（Euclidean distance）。

5、算法

·SMDP中的密度峰值聚类

将每个包视作原子型数据，通过一些距离度量方式计算包间距离dijd_{ij}dij。同时，包的密度ρi\rho_{i}ρi以及包到它的master的距离δiδ_{i}δi都是基于dijd_{ij}dij的。通过（3）式与（4）式计算。
一个包的master指的是离他最近且密度最大的那个包。通过ρi\rho_{i}ρi与dijd_{ij}dij我们能够计算出某个包的代表性。将ncn_{c}nc个具有最大代表的包作为代表包。
在二分类问题中，设置cutoff distance主要是为了能够使得包间最大距离翻倍。在多分类问题中，我们在那些标签一致的包中找到每一个类别的代表包。

·两种全新的距离度量方式

对于文本数据集，包中的中心实例能够作为包的代表。中心实例xiˉ\bar{x_{i}}xiˉ的表达式为：
xiˉ=∑j=1nixijni(9)\bar{x_{i}}=\frac{\sum_{j=1}^{n_{i}}x_{ij} }{n_{i}}\tag{9} xiˉ=ni∑j=1nixij(9)
提出virtual Hausdorff distanced（dvird^{vir}dvir），通过中心实例来计算距离而不是用包来计算。包BiB_{i}Bi与BjB_{j}Bj间的距离就通过它们的代表实例来计算。dvird^{vir}dvir的表达式为：
dijvir=d(xiˉ,xjˉ)(10)d^{vir}_{ij}=d(\bar{x_{i}},\bar{x_{j}})\tag{10}dijvir=d(xiˉ,xjˉ)(10)
对于图像数据集，提出min-bias distance(dbiad^{bia}dbia)，用于计算xiax_{ia}xia与biasb_{ias}bias间距离。计算公式为：
dijbia=min⁡i=1nid(xia,bias)(11)d_{ij}^{bia}=\min_{i=1}^{n_{i}}d(x_{ia},b_{ias})\tag{11}dijbia=i=1minnid(xia,bias)(11)
其中，bias=∑xiaxia+∑xjbxjbni+nkb_{ias}=\frac{\sum_{x_{ia}}^{} x_{ia}+\sum_{x_{jb}}^{}x_{jb} }{n_{i}+n_{k}}bias=ni+nk∑xiaxia+∑xjbxjb