论文链接：https://dl.acm.org/doi/10.1145/3219819.3220006

代码链接：https://github.com/GentleZhu/HEER

会议：KDD 2018

1 摘要

HIN在引入丰富的信息的同时，也引入了潜在的不兼容性。为了保留网络中丰富但潜在不兼容的信息，作者研究了对HIN的综合转录问题。本文提出了HEER算法，通过结合边的表示和恰当的异质度量，学习HIN的嵌入表示。（实验任务是edge reconstruction task）

2 介绍

HIN不仅引入了丰富的语义信息，还引入了潜在不兼容的语义信息，这为HIN的嵌入学习带来了挑战。例如下图所示，Stan喜欢musical类型的电影，也喜欢Ang Lee导演的电影。但是Ang Lee没有导演过musical类型的电影，所以若这些节点都被映射到同一个度量空间的话，Ang Lee和musical的距离会很远，因为它们不相似。因此，在同一个度量空间中，Stan不可能同时和这两个节点距离近。为了缓解这一问题，作者引入边的表示并且针对不同类型的边使用不同的度量空间。这样Stan节点可以在两个度量空间中分别于Ang Lee和musical距离近。

2.1 动机

（1）研究HIN的综合转录问题，目标是在嵌入表示中融入HIN中丰富且有着潜在不兼容性的语义信息，并且不涉及额外的专家知识、特征工程以及监督。

（2）提供易于使用的方法，充分发挥HIN中的信息，以实现多种多样的应用。

2.2 作者分析了现有的一些方法

（1）解决同质信息网络的方法通常是基于元路径的，这不能解决HIN的综合转录问题。因为元路径的选择很麻烦，而且选取出来的元路径只针对特定任务或者只能反映出HIN的部分信息。

（2）还有一些针对HIN的方法，只对特定种类的HIN或添加了副信息的HIN进行了表示学习。这些方法不能应用到一般的HIN。并且大多数针对HIN的嵌入表示方法只为表示学习提供了一个度量空间，这可以处理HIN中部分可兼容语义信息，但是若对HIN整体记性综合转录则会带来信息损失。

（3）最近的研究[1]提出了一个方法，通过在嵌入学习前将HIN分解成多个领域的，实现了在避免信息损失的条件下（如：丰富的异质信息、潜在冲突的语义信息）获得高质量的HIN表示。但是这种方法独立地获取到了不同领域的信息，但是完全禁止了跨领域的联合学习。本文提出的方法允许不同兼容性的网络组件，在联合学习过程中进行不同程度的协作。

2.3 挑战

（1）对复杂且不兼容的异质信息进行编码；

（2）在无监督的情况下捕获HIN的机构信息，并且能辨别出潜在不兼容的语义信息。

作者提出HEER算法，在节点表示的基础上建立边的表示，并且为不同类型的边采用不同的异构度量。同时，不同类型的边上的信息也被利用，反过来更新节点表示和边表示。

2.4 贡献

（1）研究了HIN嵌入学习中的综合转录问题，保留了HIN丰富的语义信息，并且易于在下游任务中使用。

（2）提出现实世界中的HIN存在不可兼容的语义信息，这为HIN的综合转录带来了挑战。

（3）提出算法HEER，利用边的表示和异构度量，解决HIN的综合转录问题。

（4）实验证明了HEER的有效性。

3 HEER

3.1 一些定义

（1）异质信息网络

有向图 $G=(V,E)$ ，节点类型映射，边类型映射，或。
对于边类型，定义，其中表示节点类型对由类型为r的边连接。
表示从节点u到节点v的类型为r的连边e的权重。
分别代表节点u的连边类型为r的出度和入度。

（2）节点和边的表示

节点嵌入映射为，边嵌入映射为。
节点嵌入为，节点对(u,v)由边嵌入表示。

（3）HIN的综合转录

学习到尽可能多的HIN中的丰富信息用于表示，并且不需要额外的专家知识、特征工程，也不需要监督。

3.2 The HEER Model

学习到的HIN的嵌入表示应该对语义信息进行了有效的编码，所以应有重构HIN的能力。HEER模型使用边的表示，不仅能够预测两节点间是否有边，还能推断出边的类型。

为了让HEER能够处理无向图和有向图，节点嵌入根据出入度被分成了两部分：。基于节点嵌入的边嵌入表示如下：

已知边的嵌入表示的条件下，定义节点对(u, v)的typed closeness如下，其中表示类型为r的边向量：

为了衡量嵌入表示重构HIN的能力，需要针对边类型r最小化权重和typed closeness的差异：

将式（1）带入式（2），最终的目标函数如下：

模型如下图所示：

该模型结构，输入是一个异质网络，之后网络中的节点使用index表示，通过F网络学习出node embedding，之后通过g函数来学习出边的embedding，最后通过type之间的相似度，也就是定义的相似度函数和原始连接关系共同作为ground truth，最后训练出网络参数，从而能够学到网络的嵌入模型。

由于式（1）的分母计算复杂。所以采用负采样的方法缩短计算时间。每次(u, v)之间类型为r的边，都以正比于权重的概率从HIN中采样。得到K个负样本节点对和K个负样本节点对。损失函数计算如下：

作者使用mini-batch随机下降最小化带有负采样的损失函数，并且使用LINE预训练的节点嵌入初始化为HEER中的节点嵌入，μr初始化为值全为1的向量。

4 总结

HEER模型提出了HIN中由于类型不同而导致的语义不兼容性，使用边的表示和不同的度量空间表示解决了这一问题，想法很有新意。

HEER不光学习到了节点的表示，还学习到了边的表示。

但是HEER模型也有一定的局限性，没有充分利用HIN的复杂结构信息，只考虑到了节点对（节点的一阶邻居）来生成嵌入表示。要想利用更复杂的信息，可能还需要基于元路径的方法或者是其他新方法。

实验只进行了边重构这一个任务，有些单一，不知道在其他典型的任务上效果如何。

参考文献

[1] Yu Shi, Huan Gui, Qi Zhu, Lance Kaplan, and Jiawei Han. 2018. AspEm: Embedding Learning by Aspects in Heterogeneous Information Networks.. In SDM.

【论文解读 KDD 2018 | HEER】Easing Embedding Learning by Comprehensive Transcription of HIN相关推荐

【论文泛读】Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks
Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks [2018 ...
论文解读：Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction
论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction (201 ...
论文解读：Factual Probing Is [MASK]: Learning vs. Learning to Recall
论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall 先前一系列Prompt方法基于搜索策略获得Prompt的templa ...
论文阅读笔记《Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image》
核心思想本文提出一种通过图块匹配寻找图像和CAD模型之间的对应关系,并进一步实现位姿估计的算法.与许多从单目图像中实现目标物体三维识别并估计位姿的方法类似,本文也是通过从CAD模型库中检索最相似 ...
【论文解读 WSDM 2018 | SHINE】Signed HIN Embedding for Sentiment Link Prediction
论文链接:https://arxiv.org/abs/1712.00732 代码链接:https://github.com/boom85423/hello_SHINE 会议:WSDM 2018 这位大 ...
医学AI论文解读 |Circulation|2018| 超声心动图的全自动检测在临床上的应用
文章来自微信公众号:机器学习炼丹术.号主炼丹兄WX:cyx645016617.文章有问题或者想交流的话欢迎- 参考目录: 文章目录 0 论文 1 概述 2 pipeline 3 技术细节 3.1 预处 ...
【论文解读 CIKM 2018 | GEM】Heterogeneous Graph Neural Networks for Malicious Account Detection
论文链接:Heterogeneous Graph Neural Networks for Malicious Account Detection 来源:CIKM 2018(CCF-B 数据库,数据挖掘 ...
【论文解读 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation
论文题目:Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation 论文来源:EMNLP ...
论文解读GCN 1st《 Deep Embedding for CUnsupervisedlustering Analysis》
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...
【论文解读 ESWC 2018 | R-GCN】Modeling Relational Data with Graph Convolutional Networks
论文题目:Modeling Relational Data with Graph Convolutional Networks 论文来源:ESWC 2018 论文链接:https://arxiv.or ...

【论文解读 KDD 2018 | HEER】Easing Embedding Learning by Comprehensive Transcription of HIN

目录