前言
本博文主要对论文中提到的图构造方法进行梳理,论文自己提出的模型并未介绍,感兴趣的可以阅读原文

摘要

基于图的半监督学习GSSL主要包含两个过程:图的构建和标签推测。传统的GSSL中这两个过程是完全独立的,一旦图结构构建完成,标签推断的结果也不再改变。因此,图的结构直接影响GSSL的效果。传统的图构造方法对数据的分布做了一个具体的假设,导致图的质量严重依赖于这些假设的正确性。因此,对于传统图构造方法很难应用再复杂多样的数据分布上。本文提出了一个框架叫做通过动态地提升图质量的图半监督学习。在本方法中,图的构建是基于多个聚类结果的加权融合,并且把标签推断也整合进一个统一的框架达到相互引导,动态提升的效果。

引言

GSSL方法主要可以分为两个角度即标签推测和图的构建。标签推测主要关注于如何根据有标签的样本和相似样本提供的信息在图上进行标签学习。而GSSL成功的关键在于构建高质量的图而非好的标签推测算法。GSSL核心的假设是图中相似的样本应该有相同的标签。根据这个标准,如果样本的相似程度与真实标签一致,那么未标记的样本便可以被正确预测。相反,如果相似性与真实标签相反则会得到错误的结果。因此,图的质量对于GSSL方法的表现至关重要。

由于没有可用的评价方法来度量图的质量,图的质量一般是通过标签推测的准确率来间接度量的。这是一种事后的验证方法,对于图的构建没有任何帮助。这也就是构建高质量图的难点所在。那么问题就来了,为什么不让图的构建和标签推断彼此指导达到共赢呢?在本文中,我们将图的构建和标签推测放入一个优化模型中来解决问题。

我们需要先大致重温一下现有的图构造方法。图构造方法的基本任务就是度量样本之间的相似性。根据相似度的计算方法,现有图构造方法可以分为两类

基于距离的方法

基于距离的构图方法通过计算样本之间的距离来度量节点间的相似度。直观来讲,距离越小,相似度越高。常见的方法有基于欧式距离的方法如KNN graph和e-ball neighborhood图。在KNN图中,当节点的度差异非常大时,图的质量也会下降。为了克服该问题,b-matching图通过把图中每个节点的度约束为b来构图。除了使用欧式距离外,基于流型假设的构图方法通过测地距离来度量样本之间的相似性。

一些工作通过样本标签提供的监督信息来构图。给有标记的节点更多边可以使标记信息高效的传递到无标记的样本中。

基于距离的方法需要选择合适的度量方法,同样构图中的一些参数也是非常重要的图邻居数量,距离阈值等。并且一旦图构造完成后,图的结构会固定下来,不能自适应处理多种数据分布。

基于数据表示的方法

基于数据表示的构图方法通过样本之间的表示系数来建模样本的相似度。样本之间的表示系数通过一个数据表示模型来得到。L1 graph使用稀疏表示学到的表示系数的绝对值来度量样本之间的相似度来构建图。因为这类方法是单独优化每个样本的表示系数的,因此表示系数矩阵无法捕获数据分布的全局信息。而有的工作通过把L1 norm和nuclear norm正则项共同应用在所有样本的表示系数矩阵中同时捕获局部和全局信息。

基于数据表示的方法可以学习邻接结构和边的权重,对数据噪声有一定的鲁棒性。但是当数据分布不能满足子空间假设时,这种方法无法正确反映数据分布,无法保证模型结果。

可以看到,基于距离的方法和基于数据表示系数的方法都严重依赖于对应的假设。如果假设不对,两种方法都无法正确捕获与数据分布一致的相似性,导致效果下降。但是现实中数据分布复杂且多样,很难基于特定的假设自适应的度量样本间真实的相似度。因此,要想构建高质量的图,需要设计一个图构造方法可以降低复杂多样的数据分布的影响同时还能自适应的挖掘潜在的数据分布。

考虑到以上需求,我们将目标转向聚类集成,通过将多个聚类结果整合到一个最终的聚类结果中可以获得一个更加鲁棒的聚类结果。在大量的聚类集成方法中,基于相似度的方法最为灵活高效。通过融合多个基础的簇来构建一个简单的相似度矩阵。该方法高效的原因在于不同类型的簇互补了不同类型的数据分布,通过融合多个不同分的聚类结果可以获得一个鲁棒的相似度计算方法,提升最终聚类的鲁棒性。

基于此,我们是设计了一个图构造方法通过加权融合多个距离结果来度量样本之间的相似性。首先,不同的聚类算法获取多个聚类结果,捕获复杂多样的数据分布。然后,加权融合聚类结果用于构图,其中权重会根据样本标签和标签推测的结果提供的“必须连接”和“不能连接”约束条件动态的调整。在整个学习过程中,图的动态构建和标签推断过程交替的优化,可以动态的提升构图质量。

图构造方法

1. Nearest neighbor graph
0-1kNN graph和weighted kNN graph是最常见方法,其中边权重矩阵W定义为

当然还有其他的变体如e-ball nearest neighbor graph,mutual kNN graph等。

2. b-matching graph
为了避免在kNN graph中有的节点度很大而有的却非常小,b-matching通过把每个节点的度约束为b。对应优化过程如下,该算法可以通过loopy belief propagation算法高效解决。

3. Linear neighbor graph
不同于直接使用距离来建模建模样本之间的相似度,一些工作采用了线性的基于表示的相似度计算方法。具体来说,对于样本xi,首先计算出它k个最近邻的邻居kNN(xi)。然后通过kNN(xi)的凸组合重构样本xi。最终,组合系数视作节点之间边的权重。

4. l1 graph
为了挖掘数据的子空间,l1 graph同时学习邻接结构和边的权重。样本之间的相似度通过稀疏表示学到的线性组合系数的绝对值来表示。具体来说,第i个样本通过剩余的其他样本来重建。其中I为重建样本xi中噪声的偏置项。



5. LRR graph and SSLRR graph
低阶表示是一种鲁棒的子空间重建方法。不同于稀疏表示模型为每个样本单独学习表示系数。低阶表示通过给表示系数矩阵上应用低阶正则项可以更好的捕获数据的全局结构。||*||*用于估计矩阵的阶,因此,低阶表示模型可以表示为

在获得最优表示矩阵R后,节点i和j之间的边的权重可以表示为

为了更好利用监督信息提升图的质量,一个半监督图构造方法SSLRR通过把“不能连接”约束加入低阶表示模型中使不同类别样本的表示系数为0.

图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically相关推荐

  1. 【论文笔记】Revisiting graph based collaborative Filtering:一种线性残差图图卷积网络方法

    Revisiting Graph based Collaborative Filtering:A Linear Residual Graph Convolutional Network Approac ...

  2. 【论文导读】- Link Weight Prediction Using Supervised Learning Methods(使用监督学习方法的链路权重预测及其在Yelp网络中的应用)

    文章目录 论文信息 摘要 主要内容(contributions) 图模型和评价指标 特征指标 原图特征指标 原始图转线图 线图特征指标 论文信息 Link Weight Prediction Usin ...

  3. A brief introduction to weakly supervised learning(简要介绍弱监督学习)

    文章转载自http://www.cnblogs.com/ariel-dreamland/p/8566348.html A brief introduction to weakly supervised ...

  4. Bipartite Graph Based Multi-View Clustering

    Bipartite Graph Based Multi-View Clustering 基于二部图的多视图聚类 abstract 对于基于图的多视图聚类,一个关键问题是通过两阶段学习方案捕获共识聚类结 ...

  5. 论文阅读:A Novel Graph based Trajectory Predictor with Pseudo Oracle

    A Novel Graph based Trajectory Predictor with Pseudo Oracle 摘要 1 引言 2 相关工作 3 PROPOSED METHOD IV. EXP ...

  6. ML之SL:监督学习(Supervised Learning)的简介、应用、经典案例之详细攻略

    ML之SL:监督学习(Supervised Learning)的简介.应用.经典案例之详细攻略 目录 监督学习(Supervised Learning)的简介 1.监督学习问题的两大类-分类问题和回归 ...

  7. 小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks.

    小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录 小样本论文笔记5:Mod ...

  8. Automated defect inspection system for metal surfaces based on deep learning and data augmentation

    Automated defect inspection system for metal surfaces based on deep learning and data augmentation 基 ...

  9. 【论文分享】图嵌入恶意域名检测算法:Malicious Domain Detection via Domain Relationship and Graph Models

    题目:Malicious Domain Detection via Domain Relationship and Graph Models 链接:https://ieeexplore.ieee.or ...

最新文章

  1. 工业相机之全局曝光与卷帘曝光
  2. windows下 Qt 静态编译
  3. 北航出品,CVPR 安全AI大赛第二名:梯度细化提高对抗传递性
  4. Bootstrap3 按钮组插件
  5. 交换机 路由器和集线器的区别
  6. 轻量级自适应个人自动发卡源码全开源 附详细图文安装教程
  7. 涨点神器!特征金字塔技术总结
  8. java 清除文本框数据_Java 添加、读取、删除Excel文本框
  9. 阿里云 ECS迁移数据至腾讯云云服务器
  10. Google Hack 最新版
  11. Hadoop 面试总结
  12. Fastadmin后台列表外显示额外数据
  13. (2017中国数字化贡献人物专访)线上蓝光、数字蓝光:助力蓝光弯道超车
  14. 七、vertical-align属性、透明度属性及兼容、ps常用工具、常见的图片格式、项目规范、命名参考、iconfont的使用...
  15. ps把白底图片改为透明
  16. UART串口通信协议
  17. CStdioFile类学习
  18. JAVA实现功能的方法
  19. 3.Java流程控制语句
  20. rc522 linux 驱动程序,RC 522模块在LINUX平台调试笔记

热门文章

  1. 汽车诊断协议(K线/CAN总线、kwp2000、ISO14230、ISO1575...)
  2. 系统迁移-win10
  3. VS2019 将多个(窗口)选项卡同时并列显示
  4. 香农信息论的基本理论探究
  5. http-proxy 代理跨域
  6. 元祖字典 java_和你学Python之Python数据类型之字典、元组和集合
  7. 数据分析-回归分析读书笔记
  8. Ethernet 防雷及ESD二极管保护设计
  9. TPC-C基准测试简介
  10. 2022年车工(中级)考试练习题及模拟考试