【论文阅读】An Iterative Instance Selection Based Framework for Multiple-Instance Learning

题目

An Iterative Instance Selection Based Framework for Multiple-Instance Learning
一种基于迭代实例选择的多示例学习框架
2018 IEEE 30th International Conference on Tools with Artificial Intelligence -C

摘要

基于实例选择的模型是一种有效的多示例学习（MIL）框架，它通过将示例（实例包）嵌入到由一些概念（由一些选定实例表示）形成的新特征空间中来解决 MIL 问题。
大多数先前的研究使用单点概念进行实例选择，其中每个可能的概念仅由单个实例表示。在本文中，我们应用多点概念来选择实例，其中每个可能的概念由一组相似的实例联合表示。此外，我们基于多点概念建立了一个基于迭代实例选择的 MIL 框架，保证自动收敛到给定问题所需的概念数量。
实验结果表明，与最先进的 MIL 算法相比，所提出的框架不仅可以更好地处理常见的 MIL 问题，还可以更好地处理混合问题。

算法

符号系统

符号	表示
DDD	训练集
Bi+={xij+∣j=1,…,ni+}B_i^+=\{\boldsymbol{x}_{ij}^+ \| j=1,\dots,n_i^+\}Bi+={xij+∣j=1,…,ni+}	正包
xij+\boldsymbol{x}_{ij}^+xij+	实例
Bi−，xij−，ni−B_i^-，\boldsymbol{x}_{ij}^-，n_i^-Bi−，xij−，ni−	同上
BiB_iBi	包
x\boldsymbol{x}x	实例
m+m^+m+	正包个数
m−m^-m−	负包个数
ncncnc	预定义的最大概念数(非常大)
nacnacnac	实际学习的正概念数量

MIL假设的进一步分析

对于标准MIL假设，所有正包都包含同一类实例（正实例），正实例与目标概念（正类）相关
对于广义MIL假设，每个正包包含几种不同类型的实例，这些实例与正类相关。比如海滩图像中包含沙滩和海洋
与目标概念相关的相同类型的实例出现在所有正包中
动机：从一个正包中的一个相关实例 x 开始在每个正包中搜索它的最近邻居，我们将得到一组相似的实例。显然，这些相似的实例很可能也属于同一类。因此，它们可以表示一个概念

MILMPC方法概述

step1:概念提取：从所有正包中收集实例，并在每个实例中从每个正袋中搜索其最近邻居，每一组邻居都被视为一个候选的多点概念（candidate multiple-point concepts）
step2：相关性（relevance）计算：根据相关性评估标准，计算每个候选概念与正类的相关性
step3：初始概念选择：从候选概念中选择相关性最高的概念，并加入空的多点概念集（multiple-point-concept set）
step4：冗余度（redundancy）计算：计算每个候选概念到概念集的冗余
step5：概念选择：如果存在最非冗余且相关的候选概念，将其添加到概念集，并返回步骤4；否则终止迭代

迭代实例选择方法的组成部分

candidate multiple-point concepts
CxC_{\boldsymbol{x}}Cx,包括x\boldsymbol{x}x在每个正包中的最近邻
Cx={nx(Bi+)∣Bi+∈D}C_{\boldsymbol{x}}=\{n_{\boldsymbol{x}}(B_i^+)|B_i^+\in D\}Cx={nx(Bi+)∣Bi+∈D}
Bi+B_i^+Bi+中，x{\boldsymbol{x}}x的最近邻居
nx(Bi+)=argminxij+∈Bi+∥xij+−x∥22n_{\boldsymbol{x}}(B_i^+)=\mathop{\text{argmin}}\limits_{{\boldsymbol{x}}_{ij}^+\in B_i^+}\| \boldsymbol{x}_{ij}^+ -\boldsymbol{x}\|_2^2nx(Bi+)=xij+∈Bi+argmin∥xij+−x∥22
对所有正包中的实例提取一组候选概念

相关性定义：
在所有正包中共存的近邻实例的数量反应了CxC_{\boldsymbol{x}}Cx与目标概念（正类）的相关程度。使用CxC_{\boldsymbol{x}}Cx中所有实例的平均数来评估相关性：

基于majority voting的相关性:rv(Cx)r_v(C_{\boldsymbol{x}})rv(Cx),Cx={xk∣k=1,…,m+}C_{\boldsymbol{x}}=\{\boldsymbol{x}_k|k=1,\dots,m^+\}Cx={xk∣k=1,…,m+}
rv(Cx)=1m+∑k=1m+∣Nxk∩NCx∣,r_v(C_{\boldsymbol{x}})=\frac{1}{m^+}\mathop{\sum}\limits_{k=1}^{m^+}|N_{\boldsymbol{x}_k} \cap N_{C_{\boldsymbol{x}}}|,rv(Cx)=m+1k=1∑m+∣Nxk∩NCx∣,
Nxk=CxkN_{\boldsymbol{x}_k}=C_{{\boldsymbol{x}_k}}Nxk=Cxk,由xk{\boldsymbol{x}_k}xk从所有正包中确定的近邻
NCx={nCx(Bi+)∣Bi+∈D}N_{C_{\boldsymbol{x}}}=\{n_{C_{\boldsymbol{x}}}(B_i^+)|B_i^+\in D\}NCx={nCx(Bi+)∣Bi+∈D}，nCx(Bi+)=v({nxk(Bi+)∣xk∈Cx})n_{C_{\boldsymbol{x}}}(B_i^+)=v(\{n_{\boldsymbol{x}_k}(B_i^+)|{\boldsymbol{x}_k} \in C_{\boldsymbol{x}}\})nCx(Bi+)=v({nxk(Bi+)∣xk∈Cx})，v(⋅)v(\cdot)v(⋅)是一个投票函数
（对CxC_{\boldsymbol{x}}Cx中的每一个实例xk\boldsymbol{x}_kxk找其在Bi+B_i^+Bi+中得到近邻，则Bi+B_i^+Bi+中为近邻次数最多的实例作为CxC_{\boldsymbol{x}}Cx在Bi+B_i^+Bi+中的近邻；如此C_{\boldsymbol{x}}对每一个正包都有一个近邻，得到NCxN_{C_{\boldsymbol{x}}}NCx）
(如果交集为空呢？)

冗余度
冗余是指一个候选概念CxC_{\boldsymbol{x}}Cx在多大程度上对当前概念集(multiple-point concept set)是冗余的
这表明CxC_{\boldsymbol{x}}Cx到CCC的冗余与CxC_{\boldsymbol{x}}Cx中CCC的相对补码的大小有关(the size of the relative complement )
d(Cx)=∣Cx/C∣d(C_{\boldsymbol{x}})=|{C_{\boldsymbol{x}}}/C{}|d(Cx)=∣Cx/C∣

伪代码

C={xk∣k=1,…,n}C=\{{\boldsymbol{x}_k|k=1,\dots,n}\}C={xk∣k=1,…,n}
特征向量ξ(Bi)=[h(Bi,x1),…,h(Bi,xn)]T\xi(B_i)=[h(B_i,\boldsymbol{x}_1),\dots,h(B_i,\boldsymbol{x}_n)]^Tξ(Bi)=[h(Bi,x1),…,h(Bi,xn)]T
分类器：具有高斯核的标准 SVM，LIBSVM 用于训练所有 SVM

实验

数据集

遵循标准MIL假设：MUSK1 、MUSK2
遵循广义假设：COREL
例如，一张海滩图像不包含任何真正的海滩区域，而是包含沙子和水区域，而这些块共同决定了该图像的类别。
遵循混合假设：Elephant, Fox, and Tiger
一些正包可能包含目标动物，而其他正包可能只包含目标动物的部分而不包含目标动物

对比算法

传统的 MIL 算法或大多数现有的基于实例选择的算法都以特定假设开始，但试图解决不同类型的 MIL 问题。然而，依赖于一个假设很可能会失去解决另一个假设所支持的问题的能力

收敛性

概念集的大小在多次迭代或多次迭代后增加到最大值，但小于所有正包的实例数