论文标题

Robust multi-view clustering with incomplete information

论文作者、链接

作者:Yang, Mouxing and Li, Yunfan and Hu, Peng and Bai, Jinfeng and Lv, Jian Cheng and Peng, Xi

链接:Robust Multi-view Clustering with Incomplete Information | IEEE Journals & Magazine | IEEE Xplore

代码:

GitHub - XLearning-SCU/2022-TPAMI-SURE: PyTorch implementation for Robust Multi-view Clustering with Incomplete Information (TPAMI 2022).


Introduction逻辑(论文动机&现有工作存在的问题)

多视图聚类(Multi-view Clustering,MvC),目的是从多视图数据中学习到通用的特征表达,然后在这些特征表达上进行聚类——MvC依赖于两个假设(1)视图一致性,如图1(a)和(2)实例完全性——在数据收集和数据传输的过程中,常常会出现数据丢失导致上述两个假设不成立——因此出现了所谓的部分视图未对齐问题(Partially View-unaligned Problem,PVP)和部分样本缺失问题(Partially Sample-missing Problem ,PSP)

别的算法通过现有的视图恢复缺失的视图,来解决PSP问题——与PSP问题不同的是,PVP问题很少收到关注——一个解决PVP问题的方法是使用匈牙利算法(Hungarian algorithm )来对数据进行重新对齐,最后在对齐的数据上进行多视图聚类——有研究将匈牙利算法重新定义为一个神经模块,从而可以同时执行实例级数据对齐和表示学习——但现有方法往往只能单独处理PVP,或者PSP问题,不能同时处理

如图1(d)所示,对于每一个样本,框架目标是将其在类别层级确定交叉视图的对应项,即,在类别层级建立跨视图对应关系。显然,这过程可以很自然的解决PVP问题,并且在进一步探索相关性的过程中同时解决PSP问题。本文将这两个解决方法分别记为类别级对齐(Category-level Alignment ,CA)和类别级归责(Category level Imputation,CI),两者之间的不同之处在于,CA的目标是识别一个对等物,而CI的目标是识别多个对等物。建立相关性之后,CA可以通过将样本和其对应的样本对齐来解决PVP问题(如图1(e)所示);相似的,CI可以通过个对应样本恢复缺失的样本解决PSP问题

于是,基于上述观察,本文提出了一个同时解决PVP和PSP问题的方法,即robuSt mUlti-view clusteRing with incomplEte information (SURE),目标是学习类别级的相似性和建立跨视图的相关性,通过一个噪音鲁棒的对比学习算法。SURE将对齐的视图当做正样本对,然后在同一个样本的不同视图中随机构建负样本对。但是,这种负样本的构建方法中,会错误的将同一类下的样本视为负样本,即假阴性样本对(false-negative pairs,FNPs)。为了解决假阴性的问题提出了噪音鲁棒的对比损失

论文核心创新点

(1)提出同时解决PSP和PVP问题的算法

(2)提出了噪音鲁棒的对比损失


相关工作

多视图聚类

对比学习

含噪标签的学习

作为扩展论文,相比起上文的不同:(1)动机不同(2)损失函数不同(3)模型架构不同


论文方法

目标问题公式化Problem Formulation

定义1:不完全信息Incomplete Information

对于一个多视图数据集,由构成,其中,是视图的数目,代表实例的数量,代表没有/有PVP和PSP的数据。

定义2:部分视图未对齐问题Partially View-unaligned Problem (PVP)

当有的时候,数据集是部分对齐的。其中是指示函数,当样本属于同一个实例的时候,函数值为1

定义3:部分视图缺失问题Partially Sample-missing Problem (PSP)

当有的时候, 数据集是部分缺失的,其中是缺失视图的数量

定义4:类别级别识别Category-level Identification

对于样本,目标是使其与类别相同的另一个视图识别,即:

其中,是指示函数,当同属于一个类别的时候,值为1,为每一个类别下的样本数目。

为了减小甚至消除噪音标签的影响,设计了一个噪音鲁棒模块,配上了噪音鲁棒对比损失。为了维持学到的特征的有效性,进一步引入多功能损失,于是全局损失为:


噪音鲁棒的对比学习

为了减轻假阴性样本对的影响,提出了如下噪音鲁棒的对比损失:

其中代表对比对的数量,对于正/负样本对有分别由正/负样本进行梯度贡献。

对于一个正样本对,SURE的目标是在潜在空间中,最小化其之间的距离,通过以下公式:

其中分别代表两个针对具体视图进行特征提取的神经网络。

简单地对的优化,会导致模型最后得到琐碎解,于是添加下面的对比项来避免模型崩塌,即:

其中是一个阈值,使得负样本的距离比较的大。将的损失函数结合起来,得到了一个孪生网络的简单损失函数,即:

如图3(a,b)所示,上述的简单损失无法处理含噪音的标签,因为无法区分真/假阴性样本对,最终导致性能下降。为此,添加了FNPs的鲁棒性,提出了如下的噪音鲁棒的对比项,即,

在不同的数据集中,阈值的取值也会有所不同。为了避免繁琐的参数选择,我们提出在初始状态时对每个数据集自适应计算m,即:

其中,分别代表正/负样本的数量。在网络初始化之后只计算一次,并且在训练过程中固定住。

接下来解释为什么提出的 噪音鲁棒对比项 可以防止网络拟合FNPs,甚至逆转错误的优化方向。

画出关于 的损失表面。相比起简单的损失项,可见优化 噪音鲁棒项,不是单调的增加负对的距离

理论1:本文提出的噪音鲁棒项不是单调的

理论2:优化逆转。噪音鲁棒项的梯度方向,比起简单的损失,在的区间中是相反的。

理论3:慢优化。噪音鲁棒项的梯度方向,比起简单的损失,在的区间中梯度下降速度更慢。

根据理论2和3,对于任何的FNPs在的区间里,SURE可以通过逆转梯度来正确的减小距离;在的区间中,SURE可以减小多余的距离增量,避免网络对FNPs的过拟合

值得注意的是,虽然的噪声鲁棒项可以赋予SURE对FNPs的鲁棒性,但它也可能阻碍网络拟合TNPs。为了解决FNPs的鲁棒性和TNPs的优化之间的矛盾,我们采用了两阶段优化方案。在热身阶段,网络使用简单的损失来进行热身学习,直到负样本的距离比要大,导致是对FNPs进行拟合而不是对抗。结果,大量的TNPs会有一个距离,当大多数FNPs落入区间的时候。噪音鲁棒损失主要影响FNPs而不是TNPs。热身阶段结束后,在第二阶段,使用噪声鲁棒的对比损失。在这个阶段中,大部分FNPs会落到或者的范围,它们的距离会下降或是缓慢上升。含噪音的标签的影响会被减小甚至消除。

充分保留多功能学习Sufficiency-preserving Versatile Learning

由于对比学习可能会过分强调视图之间的一致性,我们进一步提出了一个通用的学习模块,以鼓励共同表征也保持充足的信息。

定义5:多视图表示的充分性。对于第个样本记为其具体视图的特征表达,记为其的通用特征表达。当的时候,是充分的,通过映射的重构结果

因此,为了保持已学表征的充分性,我们提出了下列通用损失:

其中,是第个视图的解码器,代表concatention操作。

类别层次对齐与归责Category-level Alignment and Imputation

当建立视图之间的相关性之后,在推理阶段,设计两个策略来应对PVP和PSP问题。

定义6:类别层次对齐(Category-level Alignment ,CA)。对于视图的每一个样本,CA将其与其在视图对应的视图对齐,即

定义7:类别层次归责(Category-level Imputation ,CI)。CI通过其对应的伙伴的权值求和,输入缺失视图

其中,是权重参数,求和为1,是k个可观察对等体的交叉视图和类别内对等体的索引集合,即:


消融实验设计

两个损失的效果对比

不同的非对齐策略

缺失率的消融


一句话总结

相比起会议论文,结构不一样,分析过程相似

论文好句摘抄(个人向)

(1)it is unknown how to simultaneously conquer them using a unifified framework.

(2)The augmented samples of the same instance are defifined as positive, while the others are considered as negative.

论文阅读“Robust multi-view clustering with incomplete information”相关推荐

  1. 论文阅读 [TPAMI-2022] Incremental Density-Based Clustering on Multicore Processors

    论文阅读 [TPAMI-2022] Incremental Density-Based Clustering on Multicore Processors 论文搜索(studyai.com) 搜索论 ...

  2. 【论文阅读】Attributed Graph Clustering with Dual Redundancy Reduction(AGC-DRR)

    [论文阅读]Attributed Graph Clustering with Dual Redundancy Reduction(AGC-DRR) 文章目录 [论文阅读]Attributed Grap ...

  3. 论文阅读-Robust Image Retargeting via Axis-Aligned Deformation

    标题:Robust Image Retargeting via Axis-Aligned Deformation 年份:2012 作者:Daniele Panozzo,Ofir Weber,Olga ...

  4. 论文阅读“Simple Contrastive Graph Clustering”(arxiv)

    论文标题 Simple Contrastive Graph Clustering 论文作者.链接 作者: Liu, Yue and Yang, Xihong and Zhou, Sihang and ...

  5. 论文阅读: Spatial Dual-Modality Graph Reasoning for Key Information Extraction (关键信息提取算法)

    目录 引言 SDMG-R整体结构 双模态融合模块 Backbone部分 Head部分 融合模块 文本节点与边权重获得部分 图推理模块 分类模块 总结 引言 文档图像中的关键信息提取任务(Key Inf ...

  6. 【论文阅读】Attributed Graph Clustering: A Deep Attentional Embedding Approach

    [原文]Chun Wang, Shirui Pan, Ruiqi Hu, Guodong Long, Jing Jiang, Chengqi Zhang. Attributed Graph Clust ...

  7. 论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

    文章目录 Abstract 1.Introduction 2.相关工作 3. 方法 3.1 输入 3.1.1 字符级别表示 3.1.2单词级表示 3.2encoder 3.2.1 base latti ...

  8. 【论文阅读】InfoGAN: Interpretable Representation Learning by Information Maximizing GAN

    论文下载 bib: @inproceedings{chenduan2016infogan,author = {Xi Chen and Yan Duan and Rein Houthooft and J ...

  9. 多目标跟踪:CVPR2019论文阅读

    多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...

最新文章

  1. 标记的用法(小例子)
  2. linux中oracle静默安装失败,oracle 11 Linux 静默安装 步骤及错误解决(更新中)
  3. 深度学习常见算法之训练自己的数据
  4. linux awk列数据处理工具使用示例
  5. Bicoloring
  6. django报错500排查方法
  7. SAP Spartacus的PWA支持
  8. 898A. Rounding#数的舍入
  9. 微软面向初学者的机器学习课程:1.3-机器学习中的公平性
  10. leetcode 867. 转置矩阵
  11. string time java,【JAVA】之【string转time方法】
  12. zookeeper能做什么?
  13. SQL内部连接3个表?
  14. 2022-2028年中国航空货运产业发展动态及竞争战略分析报告
  15. python可视化界面
  16. 2021你还在手写SQL吗?万字综述Text to SQL技术
  17. 淘宝客解析url优惠链接获取商品ID
  18. 排序算法《一》冒泡排序
  19. 高斯滤波、均值滤波、savgol滤波python程序
  20. Effective C++ 条款11_不止于此

热门文章

  1. 没必要参加嵌入式开发培训班 (学习嵌入式的资料)
  2. 浅谈模式 - 装饰者模式
  3. 【百度网盘下载】用工具IDM下载器
  4. Redis第三话 – Springboot集成Redis以及常用API和客户端介绍
  5. OA系统中包含哪些功能模块
  6. word自动消除html标签,如何清除网页中不必要的HTML代码?
  7. HTML base标签
  8. using System.Linq命名空间无法引用!的解决方案
  9. modern android5.1,modern warships
  10. 使用FloatingActionButton滑动消失后不再显示