题目

An Iterative Instance Selection Based Framework for Multiple-Instance Learning
一种基于迭代实例选择的多示例学习框架
2018 IEEE 30th International Conference on Tools with Artificial Intelligence -C

摘要

基于实例选择的模型是一种有效的多示例学习(MIL)框架,它通过将示例(实例包)嵌入到由一些概念(由一些选定实例表示)形成的新特征空间中来解决 MIL 问题。
大多数先前的研究使用单点概念进行实例选择,其中每个可能的概念仅由单个实例表示。在本文中,我们应用多点概念来选择实例,其中每个可能的概念由一组相似的实例联合表示。此外,我们基于多点概念建立了一个基于迭代实例选择的 MIL 框架,保证自动收敛到给定问题所需的概念数量。
实验结果表明,与最先进的 MIL 算法相比,所提出的框架不仅可以更好地处理常见的 MIL 问题,还可以更好地处理混合问题。

相关概念

标准MIL假设
广义MIL假设:正包由与正类相关的几种不同类型的实例,还有其他不相关的实例组成。负包可能包含与正类相关的实例
混合MIL假设:一些正包包含正实例,另一些正包不包含这样的正实例但包含与正类相关的几个正实例

实例原型——表示可能概念(possible concepts)
当前研究通常使用单点概念(single-point concepts),每个概念由单个实例表示。
由单个实例表示的概念的代表能力比一组与该概念相关的相似实例 更弱

本文提出了一个新的基于实例选择的MIL框架,称为MILMPC,它应用多点概念(Multiple-Point)来建立MIL的迭代实例选择模型
多点概念:假设每个可能的概念都与一组相似的实例相关联,而不是与单个实例相关联

如果来自正包的单个实例与目标概念(即正类)相关,则每个正包中的任何最近邻居都应该是相关的。根据标准或广义MIL假设,每个正包都包含与目标概念相同类型的相关实例

算法

符号系统

符号 表示
DDD 训练集
Bi+={xij+∣j=1,…,ni+}B_i^+=\{\boldsymbol{x}_{ij}^+ | j=1,\dots,n_i^+\}Bi+​={xij+​∣j=1,…,ni+​} 正包
xij+\boldsymbol{x}_{ij}^+xij+​ 实例
Bi−,xij−,ni−B_i^-,\boldsymbol{x}_{ij}^-,n_i^-Bi−​,xij−​,ni−​ 同上
BiB_iBi​
x\boldsymbol{x}x 实例
m+m^+m+ 正包个数
m−m^-m− 负包个数
ncncnc 预定义的最大概念数(非常大)
nacnacnac 实际学习的正概念数量

MIL假设的进一步分析

对于标准MIL假设,所有正包都包含同一类实例(正实例),正实例与目标概念(正类)相关
对于广义MIL假设,每个正包包含几种不同类型的实例,这些实例与正类相关。比如海滩图像中包含沙滩和海洋
与目标概念相关的相同类型的实例出现在所有正包中
动机:从一个正包中的一个相关实例 x 开始在每个正包中搜索它的最近邻居,我们将得到一组相似的实例。显然,这些相似的实例很可能也属于同一类。因此,它们可以表示一个概念

MILMPC方法概述

step1:概念提取:从所有正包中收集实例,并在每个实例中从每个正袋中搜索其最近邻居,每一组邻居都被视为一个候选的多点概念(candidate multiple-point concepts)
step2:相关性(relevance)计算:根据相关性评估标准,计算每个候选概念与正类的相关性
step3:初始概念选择:从候选概念中选择相关性最高的概念,并加入空的多点概念集(multiple-point-concept set)
step4:冗余度(redundancy)计算:计算每个候选概念到概念集的冗余
step5:概念选择:如果存在最非冗余且相关的候选概念,将其添加到概念集,并返回步骤4;否则终止迭代

迭代实例选择方法的组成部分

candidate multiple-point concepts
CxC_{\boldsymbol{x}}Cx​,包括x\boldsymbol{x}x在每个正包中的最近邻
Cx={nx(Bi+)∣Bi+∈D}C_{\boldsymbol{x}}=\{n_{\boldsymbol{x}}(B_i^+)|B_i^+\in D\}Cx​={nx​(Bi+​)∣Bi+​∈D}
Bi+B_i^+Bi+​中,x{\boldsymbol{x}}x的最近邻居
nx(Bi+)=argminxij+∈Bi+∥xij+−x∥22n_{\boldsymbol{x}}(B_i^+)=\mathop{\text{argmin}}\limits_{{\boldsymbol{x}}_{ij}^+\in B_i^+}\| \boldsymbol{x}_{ij}^+ -\boldsymbol{x}\|_2^2nx​(Bi+​)=xij+​∈Bi+​argmin​∥xij+​−x∥22​
对所有正包中的实例提取一组候选概念

相关性定义
在所有正包中共存的近邻实例的数量反应了CxC_{\boldsymbol{x}}Cx​与目标概念(正类)的相关程度。使用CxC_{\boldsymbol{x}}Cx​中所有实例的平均数来评估相关性:

基于majority voting的相关性:rv(Cx)r_v(C_{\boldsymbol{x}})rv​(Cx​),Cx={xk∣k=1,…,m+}C_{\boldsymbol{x}}=\{\boldsymbol{x}_k|k=1,\dots,m^+\}Cx​={xk​∣k=1,…,m+}
rv(Cx)=1m+∑k=1m+∣Nxk∩NCx∣,r_v(C_{\boldsymbol{x}})=\frac{1}{m^+}\mathop{\sum}\limits_{k=1}^{m^+}|N_{\boldsymbol{x}_k} \cap N_{C_{\boldsymbol{x}}}|,rv​(Cx​)=m+1​k=1∑m+​∣Nxk​​∩NCx​​∣,
Nxk=CxkN_{\boldsymbol{x}_k}=C_{{\boldsymbol{x}_k}}Nxk​​=Cxk​​,由xk{\boldsymbol{x}_k}xk​从所有正包中确定的近邻
NCx={nCx(Bi+)∣Bi+∈D}N_{C_{\boldsymbol{x}}}=\{n_{C_{\boldsymbol{x}}}(B_i^+)|B_i^+\in D\}NCx​​={nCx​​(Bi+​)∣Bi+​∈D},nCx(Bi+)=v({nxk(Bi+)∣xk∈Cx})n_{C_{\boldsymbol{x}}}(B_i^+)=v(\{n_{\boldsymbol{x}_k}(B_i^+)|{\boldsymbol{x}_k} \in C_{\boldsymbol{x}}\})nCx​​(Bi+​)=v({nxk​​(Bi+​)∣xk​∈Cx​}),v(⋅)v(\cdot)v(⋅)是一个投票函数
(对CxC_{\boldsymbol{x}}Cx​中的每一个实例xk\boldsymbol{x}_kxk​找其在Bi+B_i^+Bi+​中得到近邻,则Bi+B_i^+Bi+​中为近邻次数最多的实例作为CxC_{\boldsymbol{x}}Cx​在Bi+B_i^+Bi+​中的近邻;如此C_{\boldsymbol{x}}对每一个正包都有一个近邻,得到NCxN_{C_{\boldsymbol{x}}}NCx​​)
(如果交集为空呢?)

冗余度
冗余是指一个候选概念CxC_{\boldsymbol{x}}Cx​在多大程度上对当前概念集(multiple-point concept set)是冗余的
这表明CxC_{\boldsymbol{x}}Cx​到CCC的冗余与CxC_{\boldsymbol{x}}Cx​中CCC的相对补码的大小有关(the size of the relative complement )
d(Cx)=∣Cx/C∣d(C_{\boldsymbol{x}})=|{C_{\boldsymbol{x}}}/C{}|d(Cx​)=∣Cx​/C∣

伪代码


C={xk∣k=1,…,n}C=\{{\boldsymbol{x}_k|k=1,\dots,n}\}C={xk​∣k=1,…,n}
特征向量ξ(Bi)=[h(Bi,x1),…,h(Bi,xn)]T\xi(B_i)=[h(B_i,\boldsymbol{x}_1),\dots,h(B_i,\boldsymbol{x}_n)]^Tξ(Bi​)=[h(Bi​,x1​),…,h(Bi​,xn​)]T
分类器:具有高斯核的标准 SVM,LIBSVM 用于训练所有 SVM

实验

数据集

遵循标准MIL假设:MUSK1 、MUSK2
遵循广义假设:COREL
例如,一张海滩图像不包含任何真正的海滩区域,而是包含沙子和水区域,而这些块共同决定了该图像的类别。
遵循混合假设:Elephant, Fox, and Tiger
一些正包可能包含目标动物,而其他正包可能只包含目标动物的部分而不包含目标动物

对比算法



传统的 MIL 算法或大多数现有的基于实例选择的算法都以特定假设开始,但试图解决不同类型的 MIL 问题。然而,依赖于一个假设很可能会失去解决另一个假设所支持的问题的能力

收敛性


概念集的大小在多次迭代或多次迭代后增加到最大值,但小于所有正包的实例数

【论文阅读】An Iterative Instance Selection Based Framework for Multiple-Instance Learning相关推荐

  1. [基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning

    [基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning 题目含 ...

  2. 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning

    论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...

  3. 论文阅读:On Dynamic Resource Allocation for Blockchain Assisted Federated Learning over Wireless Channel

    论文阅读:On Dynamic Resource Allocation for Blockchain Assisted Federated Learning over Wireless Channel ...

  4. 论文阅读笔记《USAC: A Universal Framework for Random Sample Consensus》

      本文总结了RANSAC算法的流程与存在的问题,整理了近几年基于RANSAC提出的改进算法,并整合各个算法的优势,提出一个统一的RANSAC算法框架.因此本文也可以看做是一片关于RANSAC算法的论 ...

  5. 论文阅读:Visual Semantic Localization based on HD Map for AutonomousVehicles in Urban Scenarios

    题目:Visual Semantic Localization based on HD Map for Autonomous Vehicles in Urban Scenarios 中文:基于高清地图 ...

  6. 【论文阅读】A Biological Vision Inspired Framework for Image Enhancement in Poor Visibility Conditions

    论文:A Biological Vision Inspired Framework for Image Enhancement in Poor Visibility Conditions 作者:Kai ...

  7. 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)

    协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文     code 目录 1.简介 2. ...

  8. 论文阅读报告:Feature Selection for Multi-label Classification Using Neighborhood Preservation,Zhiling Cai

    文章目录 1. 论文出处 2. 流程(示意图) 3. 预备知识 3.1 相似性保持特征选择(Similarity Preserving Feature Selection) 3.2 多标签 4. 论文 ...

  9. 论文阅读:A Novel Graph based Trajectory Predictor with Pseudo Oracle

    A Novel Graph based Trajectory Predictor with Pseudo Oracle 摘要 1 引言 2 相关工作 3 PROPOSED METHOD IV. EXP ...

最新文章

  1. MTD的坏块管理(一)-快速了解MTD的坏块管理
  2. 文件系统vs对象存储——选型和趋势
  3. 使用SourceTree拉取代码出现Permission denied (publickey)
  4. VTK:模型之Spring
  5. 大数据在医疗保健中的真正愿景
  6. 关于runjs的一些想法
  7. 739. 每日温度 golang (list实现)
  8. Python flask 特殊装饰器 @app.before_request 和 @app.after_request 以及@app.errorhandler介绍
  9. pta-5、产生每位数字相同的n位数 (10 分)
  10. 8个超棒的使用javascript开发的视觉特效网站
  11. 计算机科学与技术素材,计算机科学与技术ppt素材
  12. POJ3979 分数加减法【水题】
  13. [笔记]使用API函数 GetACP 获取Windows系统当前代码页
  14. 微信公众号支付JSAPI
  15. 基本类型偏执-平行继承体系-令人着迷的暂时值域
  16. QIIME 2教程. 01简介和安装 Introduction Install(2020.11)
  17. 中国科学院大学毕业典礼致辞全文
  18. 电脑黑屏无法启动怎么办
  19. Centos 7 开机一直转圈 提示failed to load SELinux policy freezing的解决方法
  20. 基于ESp8266的智能插座

热门文章

  1. 工业云:制造业的加速器
  2. 外包mt6797的项目
  3. 安科瑞电力系统运维服务方案,电力运维管理软件变电站监控系统
  4. 可替代角雷达,这款纯固态补盲激光雷达什么来头?
  5. 华为USG系列防火墙能ping通不能打开网页的解决方案
  6. 微信公众平台接口调试工具json格式不对怎么搞_腾讯云和微信推出更快速的小程序开发平台,微信读书小程序作了示范...
  7. 北京司法网拍首尝线下预展 海淀法院900万红木家具亮相京东秋拍
  8. 记一次神舟战神ZX6-CT5H2新机的蓝屏翻船与重装系统的自救失败过程
  9. Photoshop-多种修补工具的使用方法
  10. 贷款审查报告--以腾讯为例