论文阅读”NCAGC: A Neighborhood Contrast Framework forAttributed Graph Clustering“(arxiv)
论文标题
NCAGC: A Neighborhood Contrast Framework for Attributed Graph Clustering
论文作者、链接
作者:Tong Wang, Guanyu Yang, Qijia He, Zhenquan Zhang, Junhua Wu
链接:https://arxiv.org/abs/2206.07897
代码:https://github.com/wangtong627/NCAGC
Introduction逻辑(论文动机&现有工作存在的问题)
特征图聚类,将给定的结点分到一些不相交的簇——传统聚类要么只关注结点特征,要么只关注图谱结构——图神经网络GNN,将结点的特征提取到低维,并且尽量同时保持原始的图谱结构以及结点特征——一些基于GNN的方法,没有针对聚类任务进行一些设计,仅仅使用GNN对特征进行提取然后在提取的结点特征上使用传统的聚类算法
为了构建一个面向聚类的框架,很多端到端的聚类算法将特征学习和聚类任务融合进一个统一的框架中——但是它们不能有效地利用异构节点嵌入
与对比学习结合——但是仍然存在以下问题:1)没有面向聚类的损失函数2)依赖数据增广3)几乎没有在特征学习上使用对比学习
论文核心创新点
1 设计了基于特征图聚类的双路对比学习算法(Neighborhood Contrast Framework for Attributed Graph Clustering ,NCAGC),应用了一个邻居对比模块
2.NCAGC是第一个学习一个自表示居住地呢的对比学习策略
3.在没有数据增广的原始视图选择样本对
相关工作
特征图聚类
图对比学习
论文方法
标记
无向特征图,其中是结点集合,是边的集合,是结点属性矩阵,为特征数量,是结点的数量,对应矩阵的第列。是邻接矩阵,代表,即结点之间有边相连,否则。是结点特征矩阵,其中,其中是结点的特征维度
对称特征提取模块Symmetric Feature Extraction Module
如图1所示,对称特征提取模块包含一个GNN编码器以及一个对称的解码器,将原始的结点和图谱结构映射到一个新的低维空间,在低维空间上做属性图聚类。
给定一个结点属性矩阵,以及图结构矩阵,假设编码器网络有层,在编码器的第层的的结点特征可以用公式表示为:
其中是编码器中的一个可训练的参数,是一个非线性的映射函数,代表了任意GNN的编码过程。本文使用一个两层的GAT网络作为非线性映射编码器。特别地,结点的属性 node attribute 会被认为是结点的初始特征,即,编码器的输出被认为是结点在第层的特征表达,即。
解码器的过程是编码器的逆过程。给定结点特征以及在第层的结点关系矩阵,并且假设解码器有层,那么解码器的第层的结点特征为公式表达为:
其中是编码器中的一个可训练的参数,是一个非线性的映射函数。为了与编码器保持一致,解码器也使用GAT作为非线性映射函数。解码器的输入经过自表示层过后的结点特征,即其中是自表示系数矩阵,解码器的输出被视为结点属性矩阵的重构,即。
保证结点的特征可以在结点属性和图谱结构方面,学习到更多有用的信息,结点的重构损失定义如下:
其中 是对称特征提取模块中的一个可训练的参数。
邻居对比模块Neighborhood Contrast Module
至此已经从对称特征提取模块拿到结点的特征,为了提升学到的特征质量,进一步引入邻居对比模块。
如何区分结点之间的相似性,即如何构建正负样本对是引入对比学习的一个关键问题。前人的工作中,图对比学习是执行在实例级并且通过图的数据增广来构建正负样本对的。但是,图的数据增广是否对对应的聚类任务有效,还是不确定的。于是,为了摆脱图数据增广,本文选择使用特征的距离来衡量结点之间的相似性,通过KNN来选择K个最近的邻居,使其构建为正样本。
具体来说,对于给定的结点特征,即图2中的红色点,在个样本点中,计算最近的个邻居结点视为正样本,剩下的个样本为负样本。
对于结点的邻居对比损失的计算公式如下:
其中 是对称特征提取模块中的一个可训练的参数,是预定义的邻居尺寸,是通过KNN计算得到的邻居结点,表示正样本的相似性的和,逐对相似性是由余弦相似性计算得:
将所有的结点都纳入考虑,于是有如下的邻居对比损失,即:
对比自表示模块Contrastive Self-Expression Module
虽然上面的模块已经可以输出高质量的结点特征表达了,但是无法保证可以很好的在深度子空间聚类的过程中构建自表示系数矩阵。因此,引入了对比自表示模块,来学习更具有区分度的自表示系数矩阵。
深度子空间聚类方法通过引入一个自表示层,即一个位于编码器和解码器中间的不带偏置值的全连接层,来学习自表示信息。对于给定的结点特征,自表示层可以计算其他结点的线性组合去解释结点重构:
现有的深度子空间聚类算法只是简单的通过最小化自表示损失来对目标函数进行优化,即:
其中是自表示的系数矩阵,其描述了自表示的程度以及每一层的线性组合的系数。
然而,普遍的自表示损失只考虑了结点重构前后的差值,即,忽略了其他结点的信息,这导致学到的的质量不高进而影响聚类的结果。
于是本文提出了对比自表示学习模块来通过对比学习的策略提高子空间聚类的效果。
如图3所示,有属性图视图以及经过自表示层的视图。对于在视图中的结点,可以与其在视图中对应的结点构成正样本对,其余结点则构成负样本对。于是结点的对比损失计算为:
将图中所有的结点都纳入考虑,则对比自表示损失为:
作为一个深度子空间聚类方法,自表示系数矩阵被用来构建关联矩阵,用来做谱聚类。于是优化以下的正则项:
其中表示任意的矩阵正则化,本文中使用正则化。
总的目标函数为:
消融实验设计
邻居对比模块的消融
对比自表示模块的消融
注意力机制的消融
论文阅读”NCAGC: A Neighborhood Contrast Framework forAttributed Graph Clustering“(arxiv)相关推荐
- 【论文阅读】24-USAC: A Universal Framework for Random Sample Consensus
[论文阅读]24-USAC: A Universal Framework for Random Sample Consensus 0.basic info 1. standard RANSAC 1.1 ...
- 论文阅读ICLR2020《ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS》
论文阅读ICLR2020<ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS> 摘要 确定节点相似性时图的结构 Ad ...
- 论文阅读和分析: “How Attentive are Graph Attention Networks?”
下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊. 数据集 1.脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1. ...
- [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构 解 ...
- 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...
- 【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation
论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...
- 论文阅读 Vision GNN: An Image is Worth Graph of Nodes
论文阅读:Vision GNN: An Image is Worth Graph of Nodes Kai Han ,Yunhe Wang,Jianyuan Guo,Yehui Tang, En ...
- 论文阅读:CNN-RNN: A Unified Framework for Multi-label Image Classification
CNN-RNN: A Unified Framework for Multi-label Image Classification Updated on 2018-08-0722:30:41 Pape ...
- [论文阅读]A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis
摘要 基于方面的情感分析 (ABSA) 涉及三个基本子任务:方面术语提取.观点术语提取和方面级情感分类.早期的工作只专注于单独解决这些子任务之一.最近的一些工作集中在解决两个子任务的组合,例如,提取方 ...
最新文章
- 七天快排优化真的存在!
- shell函数日期之间的操作(日期转秒,日期间隔秒,日期间隔天)
- 大数据之MySql笔记-0916
- linux 逻辑卷 pe size 4.00 mib大小怎么改,linux逻辑卷的建立
- android动态切换logo和label
- 4.数据库(增删改查)备份及恢复
- HttpClient库设置超时
- Matlab(R2020a)添加工具箱Toolbox的方法(详细图解)
- 亮点抢先看 | 旷视科技11篇 ICCV 2019 论文概览
- 2016值得关注的5大IT趋势
- Chrome浏览其中,关闭窗口js无效.(window.close())
- selenium 问题:OSError: [WinError 6] 句柄无效
- php odbc驱动,php ODBC
- 《21天学通Java(第7版)》—— 2.8 问与答
- mysql存储过程 插数据_mysql 使用存储过程批量插数据
- eclipse无法识别ftl文件解决
- @scheduled 定时任务执行一段时间后莫名其妙停止 Ftp假死
- 生活小常识:增发防脱发
- 如何使用GOOGLE高级搜索技巧
- MySql无法连接本地地址localhost
热门文章
- Edge浏览器崩溃,错误代码: STATUS_STACK_BUFFER_OVERRUN
- 搞清楚 Python traceback
- FindNextFile函数
- 把握视频剪辑“节奏感”,视频剪辑其实也可以很简单
- [附源码]计算机毕业设计Python蛋糕购物商城(程序+源码+LW文档)
- 小白的基因测序学习之路——#001有关基因的那些事
- 登录微信支付商户平台-产品中心,开通企业付款的方法
- YTU OJ 母牛的故事
- 公共数据交换解决方案
- 数字图像频谱的中心化