文章目录

  • 摘要
  • 1 引言
  • 2 相关工作
  • 2 相关工作
  • 3 定义
  • 4 模型
    • 4.1 表示学习
      • 4.1.1 HIN2vec模型
  • 6 结论

摘要

本文提出了一种新的异构信息网络表示学习框架,即HIN2Vec。该框架的核心是一个神经网络模型,也被称为HIN2Vec,旨在通过利用节点之间不同类型的关系捕获HINs中嵌入的丰富语义。给定HIN中以元路径形式指定的一组关系,HIN2Vec基于目标关系集联合进行多个预测训练任务,学习HIN中节点和元路径的潜在向量。除了模型设计之外,本文还讨论了HIN2Vec特有的几个问题,包括元路径向量的正则化、负抽样中的节点类型选择和随机游走中的循环。为了验证我们的想法,我们使用了4个大规模的真实HIN数据集,包括Blogcatalog, Yelp, DBLP和U.S. Patents,学习节点的潜在向量,并将它们作为特征用于多标签节点分类和链接预测应用。实验结果表明,HIN2Vec在多标签节点分类方面比micro-f1的6.6% ~ 23.8%,在链路预测方面比MAP的5% ~ 70.8%,比目前最先进的网络数据表示学习模型DeepWalk、LINE、node2vec、PTE、HINE和ESim的表现更好。

1 引言

网络数据分析和挖掘是一个重要的研究领域,因为网络数据在现实世界中无处不在,它捕捉各种网络中的现象,如社交网络、论文引用网络和万维网[6,15,29]。网络分析通常涉及节点或边缘的预测任务,例如节点分类[14]、节点聚类[23]和链路预测[20]。为了在这些任务中取得良好的性能,需要适当地表示网络节点和边,以捕获网络结构中的嵌入信息
这是数据挖掘和知识发现的预处理步骤,即众所周知的特征工程。特征工程的一种典型方法是让领域专家为特定的预测任务手工设计特定领域的数据表示,即数据的特征向量。这种方法严重依赖于领域专家的先验知识和经验,既费时又昂贵。这一问题引起了网络表示学习的极大兴趣,网络表示学习旨在将网络嵌入到一个低维空间中,并将每个节点表示为一个低维特征向量进行监督学习。
针对异构信息网络中节点的表示学习问题,提出了一种新的神经网络模型,即异构信息网络到向量(HIN2Vec)。HIN2Vec模型旨在通过利用节点之间的各种关系和网络结构来捕获HIN中的丰富信息。HINs,如Yelp社交网络[4]、DBLP协作网络[3]、美国专利引用网络[2],都是节点和边属于不同类型的网络。由于节点和边的类型不同,hin能够描述节点之间的各种类型的关系,因而包含了非常丰富的信息。元路径由节点类型和/或边类型的序列组成,通常用于表示节点对之间的特定关系。因此,不同的元路径可能具有不同的语义。例如,考虑一个DBLP协作网络,它包括三种节点类型:作者、论文和地点,以及两种边缘类型:作者写一篇论文,论文在一个地点发表。元路径“作者-论文-作者”描述了两位作者之间的合作,而“作者-论文-地点-论文-作者”描述了两位作者在同一会议地点发表论文的关系。我们声称,对嵌入元路径和整个网络结构中的丰富信息进行编码将有助于学习对各种应用有用的有意义表示,因为关系的不同语义可以更好地捕获。
为了实现这一目标和训练HIN2Vec模型,我们设计一个新的学习框架(也称为HIN2Vec)(如图1),给定一个HIN和一组以元路径的形式表示的特定的目标关系,通过预测节点之间的关系来学习节点和目标关系的潜在表示。与以前的工作相比,HIN2Vec模型保留了更多的上下文信息,不仅假设如果两个结点之间有链接那它们是相关的,并且通过联合学习关系向量,区分节点之间的不同关系并区别对待。具体来说,HIN2Vec框架包括两个阶段:(1)训练数据准备:开发了一种基于随机游走和负采样的数据准备方法,根据HIN中节点表示学习的目标关系准备训练数据;(2)表示学习:设计新的神经网络模型HIN2Vec通过最大化联合预测节点之间关系的概率来学习节点向量和关系向量。该神经网络模型通过同时和联合预测节点对之间的多种异构关系进行训练。这种多任务学习方法使得所提出的模型能够将不同关系的丰富信息和整体网络结构共同嵌入到节点向量中。从概念上讲,有关系的相关节点彼此很接近。另一方面,关系向量指出哪个维度捕获了特定的关系,并且对于提供分析洞察很有用,比如用类似的语义分组元路径。此外,所提出的模型对于大规模真实数据集的可扩展是至关重要的。我们利用异步随机梯度下降并行表示学习

2 相关工作

前人在同质信息网络中的表征学习方面也有一些研究[10,24,28]。尽管这些先前的研究都声称他们的方法能够捕获网络的结构信息,但在他们的模型中使用的特定目标函数往往只考虑节点之间聚合的部分信息或节点之间有限类型的关系。在HINs中也有一些现有的关于表征学习的著作[8,11,13,25,27]。然而,有些模型只针对有限类型的节点间关系(如两个节点间的一跳或两跳邻域)[8,11,27],而有些模型往往忽略了节点间关系的不同语义,只捕捉关系的聚合信息[8,11,13,27]。只有一个研究[25]试图捕获节点之间的不同关系。然而,它高度依赖于用户指导的方式来确定用户给定的元路径集和每个元路径的权重来进行表示学习。此外,它用于编码节点之间关系的目标函数的某些部分,例如元路径向量的乘法,也没有明确定义。
我们工作的主要贡献概括如下。

  • HINs中表征学习的新思路。由于有多种类型的节点和边,HINs能够描述节点之间不同类型的关系,这些关系具有不同的语义。我们证明,通过捕获节点之间各种类型的关系将有助于表示学习,因为它能更好地捕获嵌入在网络结构中的更详细和更精确的信息。
  • 一种新的HINs表示学习框架。我们提出了一个两阶段框架来学习HINs中节点和元路径的表示。阶段1的训练数据准备算法采用随机漫步生成和负采样的方法来准备针对HIN2Vec的训练数据。阶段2的核心HIN2Vec神经网络模型被设计为预测两个输入节点是否具有特定关系的逻辑二分分类器,以便有效地学习模型参数,即节点向量和元路径向量。研究了这两个阶段的随机游动周期、负采样节点选择和元路径向量正则化等问题。
  • 使用真实世界数据的实证研究。我们对HIN2Vec进行评估,通过对两个不同的应用进行综合评估,节点分类和链接预测,使用四个大规模的真实HIN数据集,包括Blogcatalog、Yelp、DBLP和美国专利,并与六个最先进的表示学习模型进行比较。实证结果表明,HIN2Vec模型优于现有的所有模型。此外,对习得的元路径向量的分析表明,习得的关系表示捕获了它们的语义

2 相关工作

表征学习的最新发展为缓解特征工程对人类知识和劳动的依赖提供了线索[7,24,28]。表示学习的目标是自动学习有用的潜在表示数据的有效和判别的输入特征,以监督机器学习算法的各种预测任务。在表征学习的各种方法中,基于神经网络的学习模型近年来受到了极大的关注,并在多个领域的实证研究中取得了成功,包括语音识别[12,22]、计算机视觉[9,16]和自然语言处理(NLP)[21]。
最近,表征学习的研究已经扩展到网络数据[8,10,11,13,24,25,27,28]。然而,之前的一些工作并没有针对本文所研究的复杂异构信息网络(Heterogeneous information network, HINs),而是只关注同质信息网络中的节点向量学习[10,24,28]。此外,虽然他们都声称他们的方法能够捕获信息网络的嵌入结构,但这些模型往往只考虑节点之间的聚合信息或有限类型的关系。例如,DeepWalk[24]和node2vec[10]分别通过模拟均匀随机游动和参数化随机游动来捕获每个节点的邻近邻域,从而学习节点的特征向量。LINE[28]分别捕捉1-hop和2-hop邻居关系,以学习节点的两种表示方式。

还有一些关于HINs上表征学习的已有研究[8,11,13,25,27]。一些模型的目标是只捕获节点之间有限类型的关系。具体来说,PTE[27]和HNE[8]通过捕获节点之间的1hop邻域关系来学习节点的特征向量。HEBE[11]捕获多个节点之间的2跳邻居。有些往往会忽略节点之间关系的不同语义,只捕获关系的聚合信息[8,11,13,27]。只有一项研究[25]试图捕捉节点之间的不同关系。然而,它在很大程度上依赖于用户指导来确定用户给定的元路径集和表示学习中每个元路径的权重。此外,它的目标函数的某些部分编码节点之间的关系,例如元路径的向量的乘法,是illy定义的。

3 定义

在本文中,我们提出了一个神经网络模型来解决在HIN上的表示学习问题。我们的想法是通过捕获节点之间的多个关系(即元路径)来探索HIN中丰富的信息和网络结构,并将它们作为同时和联合学习节点向量的预测目标。然而,要实现这一想法,我们面临以下挑战:(1)模型设计。设计良好的神经网络模型对于HIN2Vec框架的高效学习至关重要。我们初步设计的概念神经网络模型训练一个多标签分类器来学习节点向量,但它在训练数据准备和模型学习过程中都面临过度的开销。提出的HIN2Vec模型是一个更好的设计。(2)正规化。由于潜在向量在学习过程中的语义和含义,需要对某些模型参数进行适当的正则化。(3)培训资料准备。训练数据需要根据建议的HIN2Vec模型背后的学习逻辑进行准备和裁剪。在计算/空间效率和训练数据质量之间存在一种权衡,特别是对于大规模HINs。

4 模型

正如前面所介绍的,HIN2Vec框架包括两个阶段:训练数据准备和表示学习,在下面,我们首先介绍我们的方法表示学习阶段(4.1节),我们在讨论一个概念设计的神经网络模型框架及其缺陷,然后介绍了所提出的HIN2Vec神经网络模型以及需要考虑的一些问题。接下来,在训练数据采样阶段,我们基于随机漫步和负采样的思想,提出了一种高效的训练数据采样方法,为所提出的模型生成训练数据并讨论相关问题(章节4.2)。

4.1 表示学习

如前所述,我们为HIN应用学习节点向量的想法在于联合学习多个预测任务的模型,每个预测任务对应一个元路径。因此,一种直观的方法是开发一个神经网络模型,预测任何给定节点对之间的一组目标关系。

4.1.1 HIN2vec模型

为了解决上述问题,我们提出了hin2vecnn模型,该模型将概念NN模型的预测任务(即预测两个节点之间关系的概率)减少为新的预测任务——两个节点,xandy,是否有特定的关系。本设计避免了在数据准备时对所有关系进行扫描,在训练时对所有关系进行检查/更新

6 结论

本研究主要关注HINs的表征学习。以往的网络表征学习工作只考虑节点间有限类型的关系,或只捕获关系的聚合信息。为了填补这一空白,我们设计了一个新的神经网络模型,HIN To Vectors (HIN2Vec),它允许用户捕获关系的丰富语义和网络结构的细节,从而学习HINs中节点的表示。此外,所提出的模型还可以学习元路径的表示,可用于元路径分析。通过实验,我们证明了所提出的HIN2Vec模型能够自动学习HIN中节点的特征向量,以支持多种HIN应用,包括多个真实网络中的多标签节点分类和链接预测。HIN2Vec在这些实验中也明显优于所有比较模型。下一步,我们计划探索节点表示的正则化,学习稀疏表示,这可能捕获每个节点和元路径更明显的潜在主题。

【论文解读】HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning相关推荐

  1. 【论文解读|2019】HAHE - Hierarchical Atentive Heterogeneous Information Network Embedding

    文章目录 摘要 1引言 4 模型 4.1 路径实例注意力层 4.2 元路径注意力层 论文作者:来自浙江大学的同学 论文链接: 来源:arxiv2019 摘要 异构信息网络(HIN)嵌入由于能够有效地处 ...

  2. 【论文翻译】KDD19 -HeGAN: Adversarial Learning on Heterogeneous Information Networks 异构信息网络中的对抗学习

    文章目录 摘要 1 引言 2 定义 3 所提方法:HeGAN 3.1 整体框架 3.2 HeGAN中的生成器和鉴别器 4 实验 4.1 实验设置 4.2 实验分析 5 相关工作 6 结论 论文链接: ...

  3. 【论文泛读】Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks

    Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks [2018 ...

  4. 论文中文翻译——Automated Vulnerability Detection in Source Code Using Deep Representation Learning

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Automated Vulnerability Detection in Source Code Using Deep R ...

  5. 论文解读(一)V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation

    发表:Computer Vision and Pattern Recognition 数据集: MRI volumes depicting prostate前列腺核磁共振成像 目标函数:基于Dice系 ...

  6. 【图异常检测论文解读】AnomMAN: Detect Anomaly on Multi-view Attributed Networks

    论文链接:AnomMAN: Detect Anomaly on Multi-view Attributed Networks. 一.前言 1.1 以往图异常检测算法的问题 大多数图异常检测算法仅仅考虑 ...

  7. 【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

    论文链接:https://arxiv.org/abs/1905.05659 来源:IJCAI 2019 文章目录 1 摘要 2 介绍 2.1 挑战 2.2 作者提出 2.3 贡献 3 The Acti ...

  8. 论文解读 《Enhancing Underwater Imagery using Generative Adversarial Networks》ICRA2018

    项目:http://irvlab.cs.umn.edu/enhancing-underwater-imagery-using-gans 论文: https://arxiv.org/pdf/1801.0 ...

  9. 论文解读(MERIT)《Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learni

最新文章

  1. AI真人表情包、斗地主AI......DeeCamp学员做了50个好玩又实用的AI项目
  2. 跟我学Springboot开发后端管理系统3:Mybatis-Plus实战2
  3. 爬虫实战--爬取1000位小姐姐照片,刷新你三观颜值!
  4. php头代码,PHP常用header头定义代码示例汇总
  5. eclipse egit 报错 The current branch is not configured for pull No value for key branch.master
  6. Zimbra高级应用之-双向证书认证(一)
  7. 【C#】ADO .Net Entities Framework使用查询语句时遇到的错误
  8. mac 卸载 mysql su_UBUNTU 彻底删除 MYSQL 然后重装 MYSQL
  9. 检测php源码函数版本,PHP通用检测函数集合
  10. Google C++ style guide——命名约定
  11. 导致页面顶部空白一行解决方法
  12. NYOJ12 喷水装置(二)
  13. windows程序设计之简单界面入门
  14. 鲲鹏芯片的服务器,鲲鹏处理器及服务器介绍.pdf
  15. mail163企业邮箱从哪申请,tom企业邮箱怎么样?
  16. 寒江独钓 Windows内核安全编程
  17. python的占位符%d %i %.nf %s
  18. 7个你绝对没用过的超强搜索引擎
  19. 夏洛克和他的女朋友(隐藏质数筛)
  20. 集成学习1——voting、baggingstacking

热门文章

  1. 信创操作系统--统信UOS桌面版(登录与激活统信:直接登录、远程登录、锁屏、电源管理、激活)
  2. Oracle之函数concat、lpad
  3. 通过SPSS使用命令语法实现快速删除变量的步骤
  4. 常见Android面试题整理
  5. 大华摄像头实现web端实时播放以及录像回放
  6. 保护模式(四)长调用与短调用 调用门
  7. 海信85U7G和海信85U7G-PRO有什么区别 哪个好详细性能配置对比
  8. SSRF(10)302跳转 Bypass
  9. 7-8 打死我也不说
  10. HttpClient访问https,设置忽略SSL证书验证