论文链接:https://arxiv.org/abs/1905.05659

来源:IJCAI 2019


文章目录

  • 1 摘要
  • 2 介绍
    • 2.1 挑战
    • 2.2 作者提出
    • 2.3 贡献
  • 3 The ActiveHNE Framework
    • 3.1 Discriminative Heterogeneous Network Embedding (DHNE)
    • 3.2 Active Query in Heterogeneous Networks (AQHN)
      • 3.2.1 选择策略
        • 3.2.1.1 网络中心性(NC)
        • 3.1.1.2 卷积信息熵(CIE)
        • 3.1.1.3 卷积信息密度(CID)
      • 3.2.2 主动节点选择的多臂老虎机(Multi-Armed Bandit for Active Node Selection)
  • 4 实验
  • 5 总结

1 摘要

现有的异质网络嵌入方法(HNE)通常是无监督的,为了最大化利用HNEs中有价值的监督信息,作者提出ActiveHNE模型。

实验证明了ActiveHNE的有效性,以及在降低query成本方面的优势。

2 介绍

2.1 挑战

(1)异质性带来的普遍问题:如何处理不同类型的节点。

(2)大多数HNE方法都是无监督的,而适当地利用监督信息,可以提高HNE的效果。

(3)然而,标签的获取是很困难的,因为需要人为参与。

主动学习(active learning, AL)可以解决挑战(3),选择出最有价值的节点进行标注。然而HIN中的节点不是独立同分布(non-i.i.d.),是由边连接起来的,AL应该考虑到数据的依赖性,而且对不同类型的节点也应区别考虑。

2.2 作者提出

提出ActiveHNE模型解决上述挑战。

模型由两部分组成:DHNE(Discriminative Heterogeneous Network Embedding)和AQHN(Active Query in Heterogeneous
Networks )。

(1)DHNE

DHNE中引入了基于GCN的半监督HNE方法。先将HIN分解成同质的bipartite networks。在每层卷积,分别学习节点在每个network的语义信息,然后将它们拼接起来作为节点输出向量。

(2)AQHN

除了引入网络的中心性外,还引入了两种主动选择策略,即HIN在不确定性和代表性方面的卷积信息熵卷积信息密度

这些策略使用局部卷积实现了对HIN的异质性以及节点之间的依赖关系的利用,过滤器的参数是由节点重要程度决定的(由节点的度和邻居节点的类型数衡量)。

然后使用多臂老虎机机制,递归地向专家抛出query(unlabel data),这些节点是最值得被标注的。

ActiveHNE旨在通过为DHNE输入AQHN得到的最优价值的监督信息,提升HNE的效果。

2.3 贡献

(1)形式化了主动的异质网络嵌入学习问题,目的是通过寻找最值得标注的节点,使用这些标注节点,从而提高HNE的效果。

(2)考虑到了网络的异质性和节点间的依赖关系,使用局部卷积和多臂老虎机机制解决上述问题。

3 The ActiveHNE Framework

3.1 Discriminative Heterogeneous Network Embedding (DHNE)

先将HIN分解成同质网和bipartite networks(只由两种类型的节点组成)。然后在每个卷积层,分别卷积每个network中节点的深层语义信息,然后将它们拼接起来作为节点输出向量。

{Gt∣t=1,2,...,T}{\{G_t|t=1,2,...,T\}}{Gtt=1,2,...,T}表示分解出来的同质网络,{At∣t=1,2,...,T}{\{A_t|t=1,2,...,T\}}{Att=1,2,...,T}表示{Gt}{\{G_t\}}{Gt}相对应的邻接矩阵。

频谱图卷积定理在归一化图的基础上定义了傅里叶域中的卷积
拉普拉斯算子:Lt=It−Dt−12AtDt−12=Dt−12(Dt−At)Dt−12L_t=I_t-D^{-\frac{1}{2}}_t A_t D^{-\frac{1}{2}}_t=D^{-\frac{1}{2}}_t(D_t-A_t)D^{-\frac{1}{2}}_tLt=ItDt21AtDt21=Dt21(DtAt)Dt21。其中ItI_tIt是单位矩阵,Dt=diag(∑iAt(i,j))D_t=diag(\sum_i A_t(i,j))Dt=diag(iAt(i,j))表示度矩阵。

由于节点间的连接可能是有向的,所以不对称的矩阵比对称矩阵LtL_tLt更适合傅里叶域。定义非对称的转移概率矩阵为:Pt=Dt−1AtP_t=D^{-1}_tA_tPt=Dt1At

本文分别在分解得到的每个network上使用转移概率矩阵PtP_tPt作为傅里叶偏置。特别地。令Pt=ΦtΛtΦt−1P_t=\Phi_t\Lambda_t\Phi^{-1}_tPt=ΦtΛtΦt1,其中Λt\Lambda_tΛtΦt\Phi_tΦt分别是PtP_tPt的特征向量矩阵和特征值的对角矩阵。

卷积定义如下:

其中Xt∈RNt×DX_t\in R^{N_t\times D}XtRNt×D是网络GtG_tGt的输入,gθtg_{\theta_t}gθt是过滤器,Φt−1Xt\Phi^{-1}_tX_tΦt1XtXtX_tXt的傅里叶变换。

为了对目标节点的局部邻域进行卷积,将gθt(Λt)g_{\theta_t}(\Lambda_t)gθt(Λt)定义为K阶的多项式滤波器:

其中θt∈RK\theta_t\in R^KθtRK是多项式系数组成的向量。(2)式代入(1)式可得下式:

从上式可知,在图GtG_tGt上的卷积,只依赖和目标节点最远距离是K的那些节点。也就是说,卷积操作之后的输出信号,由网络上局部谱滤波器的K阶近似定义。其中滤波器参数θtk\theta_{tk}θtk可在整个网络GtG_tGt上共享。

进一步将(3)式一般化成D×dD\times dD×d的滤波器,将原始特征从D维转化为d维。因此,GtG_tGt上的卷积操作形式化为:

Θt∈RD×d\Theta_t\in R^{D\times d}ΘtRD×d表示滤波器参数(要训练的权重矩阵),Ht∈RNt×dH_t\in R^{N_t\times d}HtRNt×d表示卷积的输出信号。σ(⋅)\sigma(\cdot)σ()ReLU(⋅)ReLU(\cdot)ReLU()激活函数。

拼接节点在每个network中得到的向量表示,作为节点的最终输出信号。若节点不是某一network中的元素,则使用零向量代表节点在该network中的输出信号。使用ZtZ_tZt定义拼接后的向量表示,在GtG_tGt上的第l层卷积操作定义如下:

在经过β\betaβ层的卷积和拼接操作后,得到所有节点的最终输出向量E=Zβ∈RN×Td(β)E=Z^\beta \in R^{N\times Td^{(\beta)}}E=ZβRN×Td(β)(T表示networks的数量)。为了得到有区分度的embeddings,添加全连接层来预测节点的标签:

其中,Θpre∈RTd(β)×C\Theta^{pre}\in R^{Td^{(\beta)}\times C}ΘpreRTd(β)×C是隐层到输出层的权重矩阵。F∈RN×CF\in R^{N\times C}FRN×CFicF_{ic}Fic是第i个节点属于第c类的概率。最后一层的激活函数σ(⋅)\sigma(\cdot)σ()是softmax函数。

最终,有监督的基于交叉熵的损失函数定义如下:

若第i个节点属于第c类,则Yic=1Y_{ic}=1Yic=1,否则为0。(6)式和(7)式定义了半监督的node embedding模型。

3.2 Active Query in Heterogeneous Networks (AQHN)

DHNE是半监督的HNE,需要标签信息。为了训练出更有效的DHNE模型,提出了主动学习query(选择出unlabel data)的模型AQHN。AQHN的目的就是通过主动学习,筛选出最有价值的节点,进而让专家去标注这些节点用于DHNE模型中的监督。

**不确定性(uncertainty)和代表性(representativeness)**是AL中选择样本常使用的方法。

不确定性是选择在当前分类模型中,最不确定的样本;代表性是选择无标签数据中最能代表整体特征的样本。

接下来介绍基于不确定性和代表性,针对HIN的3个主动选择策略:网络中心性(Network Centrality)、卷积信息熵(Convolutional Information Entropy)和卷积信息密度(Convolutional Information Entropy)。然后,利用多臂老虎机机制,提出一种新方法将这些策略结合起来,自适应地、迭代地选择最有价值的一批节点送去标注。

3.2.1 选择策略

3.2.1.1 网络中心性(NC)

NC是衡量节点代表性的有效方法。本文使用度中心性(degree centrality):ϕnc(vi)=∣Ni∣\phi_{nc}(v_i)=|N_i|ϕnc(vi)=Ni,来评估节点的中心性。其中,∣Ni∣|N_i|Ni表示节点viv_ivi的邻居。

受谱图卷积将卷积信号定义为相邻信号的线性加权和的思想启发,提出了两种新的基于相邻信号卷积的主动选择节点策略。

首先定义卷积参数,然后定义两种选择策略。

wi=tanh(niN+miVT)∈[0,1)w_i=tanh(\frac{n_i}{N}+\frac{m_i}{V_T})\in [0,1)wi=tanh(Nni+VTmi)[0,1)衡量节点viv_ivi的重要性。nin_ini表示节点的邻居数,mim_imi表示节点邻居的类型数。N,VTN, V_TN,VT分别表示网络中的节点数和节点类型数。ni,min_i, m_ini,mi值越大,说明节点viv_ivi蕴含的信息越复杂,viv_ivi就对它的邻居节点越重要。

后面的操作中,使用wiw_iwi作为对邻居进行卷积的权重参数。

3.1.1.2 卷积信息熵(CIE)

信息熵(IE)广泛用于不确定性的衡量,本文使用如下的CIE衡量节点viv_ivi的不确定性:

3.1.1.3 卷积信息密度(CID)

节点的代表性对于衡量节点价值也很重要。使用k-means聚合节点向量,从而计算节点的信息密度(ID)。聚合的簇数是标签类别数。节点viv_ivi的CID值计算如下:

其中dis(⋅)dis(\cdot)dis()是距离度量函数(i.e., 欧式距离),ψ(vi)\psi(v_i)ψ(vi)是节点viv_ivi所属簇的中心向量,EjE_jEj是第j个节点的向量表示。

CIE和CID都是基于节点自身和其邻居节点,衡量节点重要程度的。IE和ID只使用了节点自身的信息。由于网络中节点之间存在许多连边,所以使用CIE和CID更合适。

3.2.2 主动节点选择的多臂老虎机(Multi-Armed Bandit for Active Node Selection)

使用上述三个策略选取最优价值的节点。

首先根据ϕnc,ϕcie,ϕcid\phi_{nc}, \phi_{cie}, \phi_{cid}ϕnc,ϕcie,ϕcid选出值最高的b个节点,作为每次的初始候选节点。

为每个策略分配不同的权重,加权求和作为节点重要性的最终衡量标准。主动节点选择问题就被转换为了评估每个策略的重要性问题

但每种策略的重要性都是时效性的,因此很难具体说明。所以提出一个新模型,基于多臂老虎机机制(MAB),自适应地学习动态的权重参数。

MAB每次迭代只能play one arm,本文使用的是组合的多臂老虎机(CMAB),即每次迭代可以play multiple arms

基于CMAB的思想,将每个选择策略看成一个arm,通过评估对应arm的期望回报,估计每个策略的重要性。定义CrλC^\lambda_rCrλ为arm λ\lambdaλ在第r次迭代的初始值,QrQ_rQr是迭代中实际query的节点集合。arm λ\lambdaλ的实际回报值定义如下:

其中LrL_rLr是在第r次迭代中可用的已标注节点集合;Qrλ=Crλ∩QrQ^\lambda_r=C^\lambda_r \cap Q_rQrλ=CrλQr是第r次迭代中,被arm λ\lambdaλ控制的query节点集合。fLrf_{L_r}fLr是在LrL_rLr上训练的分类器,ψ(fLr)\psi(f_{L_r})ψ(fLr)fLrf_{L_r}fLr的分类结果。

然而当前迭代的μr(λ)\mu_r(\lambda)μr(λ)值是不可计算的,因为QrλQ^\lambda_rQrλ的真实值是未知的。通常使用经验回报来估计arms的预期回报,但是在每次迭代为每个arm计算经验μr(λ)\mu_r(\lambda)μr(λ)值是非常耗时的。所以,使用arm带来的节点局部embedding变化,来估计每个arm的期望回报值

首先定义在第r次迭代中,由arm λ\lambdaλ引起的局部embedding变化如下:

其中EjrE^r_jEjr是第r次迭代中节点vjv_jvj的embedding,N(vi)N(v_i)N(vi)是节点viv_ivi的邻居。如上式所示,第r次迭代中arm λ\lambdaλ的经验回报等于由arm λ\lambdaλ控制的节点和其邻居的embedding变化。

AL策略的目的就是选择那些如果给定了标签值,则会对embeddings最大程度带来改变的节点。如果改变的不多,说明标签没有提供足够多的新信息。

为了更公平地比较避免偏差,用μ^r(λ)=Δr(λ)Δr(⋃λ=1Λλ)\hat{\mu}_r(\lambda)=\frac{\Delta_r(\lambda)}{\Delta_r(\bigcup^{\Lambda}_{\lambda=1}\lambda)}μ^r(λ)=Δr(λ=1Λλ)Δr(λ)来估计第r次迭代中arm λ\lambdaλ的经验回报。其中,Δr(⋃λ=1Λλ)\Delta_r(\bigcup^{\Lambda}_{\lambda=1}\lambda)Δr(λ=1Λλ)表示所有arms带来的局部embedding的改变。另外,在第r次迭代中,Δr(⋃λ=1Λλ)≤∑λΛΔr(λ)\Delta_r(\bigcup^{\Lambda}_{\lambda=1}\lambda) \leq \sum^{\Lambda}_{\lambda} \Delta_r(\lambda)Δr(λ=1Λλ)λΛΔr(λ),因为不同的QrλQ^{\lambda}_rQrλ可能有交集。

由于每个选择策略的重要程度是随时间变化的,使用前两次的经验回报平均值,作为对当前期望回报的估计

然后作者又把μˉr(λ)\bar{\mu}_r(\lambda)μˉr(λ)调整为了μ~r(λ)\tilde{\mu}_r(\lambda)μ~r(λ)(具体原因见论文):

为了避免选择有争议的节点,使用weighted Borda count估计第r次迭代中un-queried nodes vi∈⋃λ=1ΛCrλv_i\in \bigcup^{\Lambda}_{\lambda=1} C^{\lambda}_rviλ=1ΛCrλ的期望回报:

最终从⋃λ=1ΛCrλ\bigcup^{\Lambda}_{\lambda=1} C^{\lambda}_rλ=1ΛCrλ中选出top b个(~μ)r∗(vi)\tilde(\mu)^*_r(v_i)(~μ)r(vi)最大的节点,作为第r次迭代中的query batch QrQ_rQr

4 实验

数据集:DBLP、Cora、MovieLens

实验任务:节点分类任务,使用Accuracy衡量。

对比方法:

  • GCN
  • metapath2vec
  • AGE和ANRMAB:active network embedding methods,没有考虑节点间依赖关系以及网络的异质性。
  • DHNE:ActiveHNE的一种变体,它在初始AL设置中随机选择要query的节点。

实验结果:

(1)对比不同方法,在三个数据集上进行节点分类任务,准确率对比图如下:

(2)对ActiveHNE模型进行多种变形,以证明每个选择策略的有效性:

5 总结

本文研究了,如何通过获取最优的节点标签,实现主动判别异质网络嵌入。

提出ActiveHNE模型,将异质图分解成了多个同质图和bipartite sub-networks(二部图),然后在这些networks上使用GCN

提出了三种基于卷积的query策略,并将其结合,选择出最有价值的节点作为query,供专家打标签,然后反馈给下一轮判别性网络嵌入


本文的目的是从异质图中选取出最有价值的节点,然后给这些节点打标签,以用于半监督的节点嵌入学习。利用了这些有价值的信息,可以更好地学习到节点的表示。

但是节点的数量很多,如何选取有价值的节点就成了问题。本文采用了网络中心性(IC)、卷积信息熵(CIE)、卷积密度熵(CIE)作为衡量节点重要性的标准。

如何合理结合这三个策略?

接着就结合了强化学习中的组合的多臂老虎机机制(CMAB),自适应地学习动态的参数,为上述三个策略分配不同的权重。将每个选择策略看成一个arm,通过评估对应arm的期望回报,估计每个策略的重要性

在节点分类任务中得到了很好的效果。

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding相关推荐

  1. 【论文解读IJCAI 2019】Extracting Entities and Events as a Single Task Using a Transition-Based NeuralModel

    论文题目:Extracting Entities and Events as a Single Task Using a Transition-Based Neural Model 论文来源:IJCA ...

  2. 【论文解读 WWW 2019 | HAN】Heterogeneous Graph Attention Network

    论文题目:Heterogeneous Graph Attention Network 论文来源:WWW 2019 论文链接:https://arxiv.org/abs/1903.07293v1 代码链 ...

  3. 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding

    [异构图笔记,篇章3]GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 上期回顾 论文信息概览 论 ...

  4. 论文笔记(一):Temporal Network Embedding with High-Order Nonlinear Information

    论文笔记(一):Temporal Network Embedding with High-Order Nonlinear Information 论文标题:Temporal Network Embed ...

  5. 论文解读:(TransH)Knowledge Graph Embedding by Translating on Hyperplanes

    转自: https://blog.csdn.net/qq_36426650/article/details/103336589?utm_medium=distribute.pc_relevant.no ...

  6. 【论文解读 WSDM 2018 | SHINE】Signed HIN Embedding for Sentiment Link Prediction

    论文链接:https://arxiv.org/abs/1712.00732 代码链接:https://github.com/boom85423/hello_SHINE 会议:WSDM 2018 这位大 ...

  7. 论文解读:ChangeFormer | A TRANSFORMER-BASED SIAMESE NETWORK FOR CHANGE DETECTION

    论文地址:https://arxiv.org/pdf/2201.01293.pdf 项目代码:https://github.com/wgcban/ChangeFormer 发表时间:2022 本文提出 ...

  8. 【论文解读 CIKM 2018 | GEM】Heterogeneous Graph Neural Networks for Malicious Account Detection

    论文链接:Heterogeneous Graph Neural Networks for Malicious Account Detection 来源:CIKM 2018(CCF-B 数据库,数据挖掘 ...

  9. 【论文解读 ICDM 2019 | MVNN】Exploiting Multi-domain Visual Information for Fake News Detection

    论文题目:Exploiting Multi-domain Visual Information for Fake News Detection 论文来源:ICDM 2019 论文链接:https:// ...

最新文章

  1. 从《2018年全球创新指数报告》看中国创新力!
  2. for和foreach分析
  3. Python基础03 序列
  4. 共赴CIO时代,永洪BI如何推动企业数字化转型与创新?
  5. N个富文本编辑器/基于Web的HTML编辑器
  6. Spring的@Resource注解报java.lang.NoSuchMethodError
  7. 飞行摇杆设置_HORI皇牌空战7最新飞行摇杆抢先开箱 设计出色布局合理
  8. python3-matplotlib绘制散点图、绘制条形图
  9. 用EnumProcesses()枚举进程
  10. 17秋 软件工程 团队第五次作业 Alpha Scrum9
  11. Machine Learning - VI. Logistic Regression逻辑回归 (Week 3)
  12. 庆祝自己通过系分考试,分发资料
  13. 华为、阿里等大厂程序员真的好找对象吗?
  14. 【论文笔记-01】Re-ranking Person Re-identification with k-reciprocal Encoding
  15. 应用之星破除行业门槛 零成本开发手机应用
  16. 2022-2028年中国踏步机行业市场运营态势及投资战略规划报告
  17. “科林明伦杯”哈尔滨理工大学第十届程序设计竞赛
  18. Xptah瞄准未来医疗,计划用动捕技术革新老年人康复治疗方式
  19. 有语音的计算机玩法,哈哈!刚出来的新玩法:喊一嗓子就能让电脑关机
  20. 描写火车站场景_描写火车站的句子_优美语句

热门文章

  1. Briefings in Bioinformatics|南开大学药学院林建平教授|用于天然产物靶标预测的机器学习算法的大规模比较
  2. coreldraw x8里线段显示尺寸_CorelDRAW X8轮廓线的粗细变化两种方法介绍-轮廓线的粗细变化教程_好特教程...
  3. 聊聊十个月大的折腾群
  4. ESP32 ESP-IDF ADC监测电池电压(带校正)
  5. 数据结构——整数算数表达式
  6. prometheus+grafana监控linux主机(快速入门)
  7. EOS笔记2--同步主网与测试网
  8. 最优化方法:梯度下降(批梯度下降和随机梯度下降)
  9. 最浪漫的十大精典爱情句子.......
  10. 访问Oracle em https https://localhost:1158/em 报访问网页提示此网站的安全证书有问题解决方法