论文链接:https://dl.acm.org/doi/10.1145/3219819.3220006

代码链接:https://github.com/GentleZhu/HEER

会议:KDD 2018


目录

1 摘要

2 介绍

2.1 动机

2.2 作者分析了现有的一些方法

2.3 挑战

2.4 贡献

3 HEER

3.1 一些定义

3.2 The HEER Model

4 总结

参考文献


1 摘要

HIN在引入丰富的信息的同时,也引入了潜在的不兼容性。为了保留网络中丰富但潜在不兼容的信息,作者研究了对HIN的综合转录问题。本文提出了HEER算法,通过结合边的表示和恰当的异质度量,学习HIN的嵌入表示。(实验任务是edge reconstruction task)

2 介绍

HIN不仅引入了丰富的语义信息,还引入了潜在不兼容的语义信息,这为HIN的嵌入学习带来了挑战。例如下图所示,Stan喜欢musical类型的电影,也喜欢Ang Lee导演的电影。但是Ang Lee没有导演过musical类型的电影,所以若这些节点都被映射到同一个度量空间的话,Ang Lee和musical的距离会很远,因为它们不相似。因此,在同一个度量空间中,Stan不可能同时和这两个节点距离近。为了缓解这一问题,作者引入边的表示并且针对不同类型的边使用不同的度量空间。这样Stan节点可以在两个度量空间中分别于Ang Lee和musical距离近。

2.1 动机

(1)研究HIN的综合转录问题,目标是在嵌入表示中融入HIN中丰富且有着潜在不兼容性的语义信息,并且不涉及额外的专家知识、特征工程以及监督。

(2)提供易于使用的方法,充分发挥HIN中的信息,以实现多种多样的应用。

2.2 作者分析了现有的一些方法

(1)解决同质信息网络的方法通常是基于元路径的,这不能解决HIN的综合转录问题。因为元路径的选择很麻烦,而且选取出来的元路径只针对特定任务或者只能反映出HIN的部分信息。

(2)还有一些针对HIN的方法,只对特定种类的HIN或添加了副信息的HIN进行了表示学习。这些方法不能应用到一般的HIN。并且大多数针对HIN的嵌入表示方法只为表示学习提供了一个度量空间,这可以处理HIN中部分可兼容语义信息,但是若对HIN整体记性综合转录则会带来信息损失。

(3)最近的研究[1]提出了一个方法,通过在嵌入学习前HIN分解成多个领域的,实现了在避免信息损失的条件下(如:丰富的异质信息、潜在冲突的语义信息)获得高质量的HIN表示。但是这种方法独立地获取到了不同领域的信息,但是完全禁止了跨领域的联合学习本文提出的方法允许不同兼容性的网络组件,在联合学习过程中进行不同程度的协作

2.3 挑战

(1)对复杂且不兼容的异质信息进行编码;

(2)在无监督的情况下捕获HIN的机构信息,并且能辨别出潜在不兼容的语义信息。

作者提出HEER算法在节点表示的基础上建立边的表示,并且为不同类型的边采用不同的异构度量。同时,不同类型的边上的信息也被利用,反过来更新节点表示和边表示

2.4 贡献

(1)研究了HIN嵌入学习中的综合转录问题,保留了HIN丰富的语义信息,并且易于在下游任务中使用。

(2)提出现实世界中的HIN存在不可兼容的语义信息,这为HIN的综合转录带来了挑战。

(3)提出算法HEER,利用边的表示和异构度量,解决HIN的综合转录问题。

(4)实验证明了HEER的有效性。

3 HEER

3.1 一些定义

(1)异质信息网络

  • 有向图G=(V,E),节点类型映射,边类型映射
  • 对于边类型,定义,其中表示节点类型对由类型为r的边连接。
  • 表示从节点u到节点v的类型为r的连边e的权重。
  • 分别代表节点u的连边类型为r的出度和入度。

(2)节点和边的表示

  • 节点嵌入映射为,边嵌入映射为
  • 节点嵌入为,节点对(u,v)由边嵌入表示。

(3)HIN的综合转录

学习到尽可能多的HIN中的丰富信息用于表示,并且不需要额外的专家知识、特征工程,也不需要监督。

3.2 The HEER Model

学习到的HIN的嵌入表示应该对语义信息进行了有效的编码,所以应有重构HIN的能力。HEER模型使用边的表示,不仅能够预测两节点间是否有边,还能推断出边的类型。

为了让HEER能够处理无向图和有向图,节点嵌入根据出入度被分成了两部分:。基于节点嵌入的边嵌入表示如下:

已知边的嵌入表示的条件下,定义节点对(u, v)的typed closeness如下,其中表示类型为r的边向量:

为了衡量嵌入表示重构HIN的能力,需要针对边类型r最小化权重和typed closeness的差异:

将式(1)带入式(2),最终的目标函数如下:

模型如下图所示:

该模型结构,输入是一个异质网络,之后网络中的节点使用index表示,通过F网络学习出node embedding,之后通过g函数来学习出边的embedding,最后通过type之间的相似度,也就是定义的相似度函数和原始连接关系共同作为ground truth,最后训练出网络参数,从而能够学到网络的嵌入模型。

由于式(1)的分母计算复杂。所以采用负采样的方法缩短计算时间。每次(u, v)之间类型为r的边,都以正比于权重的概率从HIN中采样。得到K个负样本节点对和K个负样本节点对。损失函数计算如下:

作者使用mini-batch随机下降最小化带有负采样的损失函数,并且使用LINE预训练的节点嵌入初始化为HEER中的节点嵌入,μr初始化为值全为1的向量。

4 总结

HEER模型提出了HIN中由于类型不同而导致的语义不兼容性,使用边的表示和不同的度量空间表示解决了这一问题,想法很有新意。

HEER不光学习到了节点的表示,还学习到了边的表示。

但是HEER模型也有一定的局限性,没有充分利用HIN的复杂结构信息,只考虑到了节点对(节点的一阶邻居)来生成嵌入表示。要想利用更复杂的信息,可能还需要基于元路径的方法或者是其他新方法。

实验只进行了边重构这一个任务,有些单一,不知道在其他典型的任务上效果如何。

参考文献

[1]   Yu Shi, Huan Gui, Qi Zhu, Lance Kaplan, and Jiawei Han. 2018. AspEm: Embedding Learning by Aspects in Heterogeneous Information Networks.. In SDM.

【论文解读 KDD 2018 | HEER】Easing Embedding Learning by Comprehensive Transcription of HIN相关推荐

  1. 【论文泛读】Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks

    Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks [2018 ...

  2. 论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction

    论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction (201 ...

  3. 论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall

    论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall   先前一系列Prompt方法基于搜索策略获得Prompt的templa ...

  4. 论文阅读笔记《Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image》

    核心思想   本文提出一种通过图块匹配寻找图像和CAD模型之间的对应关系,并进一步实现位姿估计的算法.与许多从单目图像中实现目标物体三维识别并估计位姿的方法类似,本文也是通过从CAD模型库中检索最相似 ...

  5. 【论文解读 WSDM 2018 | SHINE】Signed HIN Embedding for Sentiment Link Prediction

    论文链接:https://arxiv.org/abs/1712.00732 代码链接:https://github.com/boom85423/hello_SHINE 会议:WSDM 2018 这位大 ...

  6. 医学AI论文解读 |Circulation|2018| 超声心动图的全自动检测在临床上的应用

    文章来自微信公众号:机器学习炼丹术.号主炼丹兄WX:cyx645016617.文章有问题或者想交流的话欢迎- 参考目录: 文章目录 0 论文 1 概述 2 pipeline 3 技术细节 3.1 预处 ...

  7. 【论文解读 CIKM 2018 | GEM】Heterogeneous Graph Neural Networks for Malicious Account Detection

    论文链接:Heterogeneous Graph Neural Networks for Malicious Account Detection 来源:CIKM 2018(CCF-B 数据库,数据挖掘 ...

  8. 【论文解读 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation

    论文题目:Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation 论文来源:EMNLP ...

  9. 论文解读GCN 1st《 Deep Embedding for CUnsupervisedlustering Analysis》

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  10. 【论文解读 ESWC 2018 | R-GCN】Modeling Relational Data with Graph Convolutional Networks

    论文题目:Modeling Relational Data with Graph Convolutional Networks 论文来源:ESWC 2018 论文链接:https://arxiv.or ...

最新文章

  1. shell按行读取文件的常见几种方法
  2. linux下杀死进程(kill)的N种方法
  3. 【第一期】史上最全电子漫画合集,收藏了。
  4. 网上看到的一道题,分享一下
  5. python序列元素的编号称为_Python序列
  6. 替代JavaOne 2013
  7. python3画图中文乱码_matplotlib图例中文乱码?
  8. ArcGIS学习总结(七)——河流制图综合
  9. 《人工智能:一种现代方法(AIMA)》绪论 智能Agent 思维导图
  10. PSPNet论文详解
  11. 【统计学】原假设 备择假设 对立假设 p值与检验统计量
  12. IllustratorCS6-桌面排版与插画绘制-01-使用散点画笔绘制璀璨星云
  13. 【Java从零到架构师第③季】【41】SpringBoot-配置文件_YAML_lombok_设置Banner
  14. 高德地图-绘制去程和回程路线
  15. 浪漫主义和革命英雄主义的回忆
  16. 核心技术及创新点怎么写
  17. 聊聊最简单的名词:频率
  18. 【ParaView教程】第四章 常见问题 —— 怎样计算正面投影面积?
  19. 如何计算 N叉树的最大深度
  20. ELK日志平台搭建(一)

热门文章

  1. 【应届生租房】应届生如何租房以及注意事项
  2. Tecplot 10 将输入的多个plt文件做成动画 :
  3. 《高效能人士的七个习惯》:运用才是关键
  4. 单片机学习笔记(持续更新中)
  5. FTTC-BSA-AuNCs 荧光素异硫氰酸酯标记牛血清白蛋白修饰的金簇
  6. 暑期游戏阅历++plan01——游戏引擎发展史简记
  7. c语言while的用法四种句型,有关while的几种用法
  8. 里程碑!美国航天局NASA耗资高达百亿美元,“终极太空望远镜”拍到了什么?| 美通社头条...
  9. 数据时代建设医疗数据,主要有哪些意义?
  10. 【西北师大-2108Java】第二次作业成绩汇总