转载 纪厚业

本文主要是大佬梳理了2019年各大顶会上关于异质图神经网络的论文,包括算法研究及应用研究.同时,作者也整理了相关大牛老师/论文/资料/数据集供大家学习.

目录

1.介绍

2.模型

2.1 19WWW  HAN-Heterogeneous Graph Attention Network

2.2 19KDD HetGNN-Heterogeneous Graph Neural Network

2.3 19NeurIPS GTN-Graph Transformer Networks

3 应用

3.1 19EMNLP HGAT-Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

3.2 19KDD MEIRec-Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation

3.3 19CIKM GAS-Spam Review Detection with Graph Convolutional Networks

4 总结

5 相关信息(导师/资料/论文/数据)

5.1 国内外相关大牛老师:

5.2 相关资料/论文整理:

5.3 相关数据集整理:

6.其他相关



1.介绍

​ 图神经网络是近年来图数据挖掘领域的热门研究方向之一,尤其以Graph Convolutional Network,Graph Attention Network为代表的图神经网络已经引起了学术界与工业界的广泛关注.然而,目前的图神经网络主要针对同质图(节点类型和边类型单一)设计.同质图中只有一种类型的节点和边(例如,只有朋友关系的社交网络),网络结构较为简单.因此,同质图神经网络通常只需要聚合单一类型的邻居来更新节点的表示即可(例如,通过在朋友关系下的邻居来更新节点表示). 但真实世界中的图大部分都可以被自然地建模为异质图(多种类型的节点和边,如下图所示,IMDB数据中包含三种类型的节点Actor、Movie和Director,两种类型的边Actor-Moive和Movie-Director). 多种类型的节点和丰富的语义信息给异质图神经网络设计带来了巨大挑战.

 与同质图不同,异质图通常需要需要考虑不同关系下邻居信息的差异. 因此,异质图神经网络通常采用层次聚合的方式: (1) 节点级别(下图(a)). 针对节点,找到其在某种关系下的邻居并聚合邻居信息来得到节点在某种关系下的表示. (2) 语义级别(下图(b)). 对多种关系(不同的边类型/元路径)下的节点表示进行融合,得到一个较为全面的节点表示. 元路径是一种节点间的连接模式,如上图中的Movie-Actor-Movie和Movie-Director-Moive.注意,不同类型的边关系(如Movie-Actor)可以认为是长度为1的元路径.

接下来的章节,我们首先梳理了几种异质图神经网络的架构设计,然后介绍了异质图神经网络在的实际应用(NLP/推荐/恶意评论检测). 最后,附上了异质图分析的相关导师/论文/资料/数据集.

2.模型

2.1 19WWW  HAN-Heterogeneous Graph Attention Network

本文由北京邮电大学联合清华大学和西弗吉尼亚大学发表在WWW2019上. 本文首次提出了基于注意力机制的异质图神经网络Heterogeneous Graph Attention Network(HAN),可以广泛地应用于异质图分析。作者也开源了相关的代码和数据 https://github.com/Jhy1993/HAN.

HAN也遵循经典的异质图神经网络架构(节点级别聚合与语义级别聚合).为了更好的实现层次聚合函数,HAN利用语义级别注意力和节点级别注意力来同时学习元路径与节点邻居的重要性, 并通过相应地聚合操作得到最终的节点表示.这是一个很自然的想法,因为节点邻居的重要性或者是元路径的重要性肯定是有所差异的.如果能捕获这种差异性应该能带来一定的提升. 模型整体架构如下图所示:

2.2 19KDD HetGNN-Heterogeneous Graph Neural Network

本文与上篇Heterogeneous Graph Attention Network名字仅有一字之差,发表时间也仅仅相差3个月. Heterogeneous Graph Neural Network(HetGNN)也遵循异质图神经网络的层次聚合方式,只是聚合器的设计略有不同. 数据集和代码见https://github.com/chuxuzhang/KDD2019_HetGNN 模型整体框架如下如所示:

与HAN不同, 本文的HetGNN没有考虑节点级别的注意力,而是用了LSTM作为聚合器来聚合某种关系下的节点邻居并更新节点表示. 这里的邻居选择也有所不同:通过random walk with restart来选择固定数量的邻居.

2.3 19NeurIPS GTN-Graph Transformer Networks

本文所提出的Graph Transformer Networks也遵循异质图神经网络的层次聚合.但是本文的重点并不在于聚合器的设计,而是解决异质图分析中的另个一重要问题:如何选取合适元路径? 异质图分析的很多文章都需要预先指定元路径(包括上述两篇文章), 但是这需要很强的先验知识.元路径选的好不好会极大的影响模型的效果.GTN可以自动的逐步生成对任务有用的元路径,省去了人工指定带来的偏差. 数据集和代码见 https://github.com/seongjunyun/Graph_Transformer_Networks 整个模型架构见下图:

3 应用

3.1 19EMNLP HGAT-Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

本文由北京邮电大学联合南洋理工大学发表在EMNLP2019, 是异质图神经网络在NLP中的应用. 数据集和代码见http://www.shichuan.org/dataset/HGAT.7z 针对短文本分类的稀疏/歧义和标签稀缺问题,通过将其建模为异质图来解决数据稀疏和歧义带来的挑战. 下图是作者在AG-News数据上建立的异质图.

同时,本文提出了一种异质图注意力HGAT来学习短文本的表示并进行分类. HGAT也遵循异质图神经网络的层次聚合,并且利用层次注意力机制来实现更好的信息聚合.模型架构见:

3.2 19KDD MEIRec-Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation

本文由北京邮电大学联合阿里巴巴发表在KDD2019, 是异质图神经网络在推荐中的应用.针对淘宝业务的实际需求,本文将Intent Recommendation场景建模为一个大规模异质图,并提出了一种基于异质图神经网络的推荐算法MEIRec. 作者也给出了一个Intent Recommendation的例子,见下图

本文所提出的MEIRec的核心思想是:设计一个异质图神经网络来学习user和query的表示。这里的异质图神经网络也遵循经典的层次聚合方式.下图展示了MEIRec的整个算法框架。

可以看出,作者选择了QIU和IQU两条元路径来学习User的表示, 选择了QIU和IUQ来学习Query的表示. 这里将异质图神经网络应用于推荐时比较自然的: 淘宝的实际业务场景是天然的异质图,多条元路径可以更好地对节点进行描述.

3.3 19CIKM GAS-Spam Review Detection with Graph Convolutional Networks

本文由阿里巴巴发表在CIKM2019上,是异质图神经网络在垃圾评论中的应用.本文也获得了CIKM的最佳应用论文奖.

作者将闲鱼上的恶意评论建模为一个大规模异质图(如下图所示),提出了一种GCN-based Anti-Spam (GAS)模型,可以实现高效准确的垃圾评论检测. 由于这里的图数据实际上只有User-Item之间的一种关系,GAS模型并没有遵循异质图神经网络经典的层次聚合, 只选取了一种元路径(User-Item)在节点层面来聚合邻居信息.

4 总结

图神经网络已经成为深度学习领域的热门研究方向之一.作为真实生活中广泛存在的异质图,其相应的异质图神经网络具有更高的实际研究价值. 下面通过一个表格来对比本文所整理所有算法.

5 相关信息(导师/资料/论文/数据)

5.1 国内外相关大牛老师:

  • Philip S. Yu(俞士纶), UIC教授兼清华数据科学研究院院长, ACM和IEEE院士,异质图分析倡导者,名列全球计算机科学领域高引作者前十的华人.主页 https://www.cs.uic.edu/~psyu/
  • Jiawei Han(韩家炜), UIUC教授,IEEE和ACM院士.曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席.个人主页 https://hanj.cs.illinois.edu
  • 石川老师, 北京邮电大学教授,智能通信软件与多媒体北京市重点实验室副主任,在Springer出版异质图分析方向第一部英文专著.个人主页http://www.shichuan.org/ShiChuan_ch.html
  • Yizhou Sun(孙怡舟), UCLA助理教授,发表异质图分析经典论文PashSim作者, 出版关于异质图分析专著Mining Heterogeneous Information Networks: Principles and Methodologies. 个人主页http://www.ccs.neu.edu/home/yzsun/Publications.htm
  • Yangqiu Song(宋阳秋), HKUST助理教授, WeChat-HKUST联合实验室副主任,其关于异质图分析的论文HinDroid获得了ACM SIGKDD 2017 Best Student Paper Award(Applied Data Science Track).个人主页 http://www.cse.ust.hk/~yqsong/
  • Yanfang Ye(叶艳芳), 凯斯西储大学副教授,曾任科摩多安全首席科学家,其关于异质图分析的论文HinDroid获得了ACM SIGKDD 2017 Best Student Paper Award(Applied Data Science Track).个人主页 https://cse.nd.edu/seminars/cse-seminar-series-fanny-ye

5.2 相关资料/论文整理:

Jhy1993/Representation-Learning-on-Heterogeneous-Graph​github.com

5.3 相关数据集整理:

https://github.com/Jhy1993/Datasets-for-Heterogeneous-Graph​github.com

其他平台 我是如何寻找数据集的,一些个人私藏

  • Google 数据集

    • 谷歌为数据集专门开发的搜索系统,20年初就已经覆盖2500万的数据集。界面也非常简洁,输入关键词即可返回相对应的数据集描述,如下。

    • 链接:https://datasetsearch.research.google.com/

  • Huggingface数据集

    • NLP界网红抱抱脸家的数据集,主要是自然语言处理方面的数据。支持使用python直接调取,譬如squad_dataset = load_datasets("squad")。

    • 链接1:https://github.com/huggingface/datasets

    • 链接2:https://huggingface.co/datasets

  • Kaggle 数据集

    • Kaggle大家再熟悉不过了,比赛平台自然少不了数据啦。

    • 链接:https://www.kaggle.com/datasets

  • Paper With Code 数据集

    • 4075个机器学习相关数据集,相比于其他平台的优势是会将数据集和相应领域的paper和benchmark对应在一起。

    • 链接:https://www.paperswithcode.com/datasets

  • Reddit 数据集

    • Reddit是国外热门论坛,在dataset板块,可以搜索数据集。相比于其他平台不同的是,可以与其他人针对数据集一起讨论。

    • 链接:https://www.reddit.com/r/datasets/

  • CLUE 数据集

    • 虽然上述平台也会涵盖中文的数据集,但是可能并不全面。CLUE组织专门针对中文NLP数据搭建了一个平台,同时开源了许多中文大规模数据和预训练模型,点赞!!

    • 链接:https://www.cluebenchmarks.com/dataSet_search.html

  • 其他

    • https://www.datasetlist.com/

    • https://github.com/awesomedata/awesome-public-datasets

    • https://tinyletter.com/data-is-plural

    • https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html

    • https://www.openml.org/search?type=data

    • https://github.com/InsaneLife/ChineseNLPCorpus

6.其他相关

1)EMNLP2019: 基于层次多图卷积网络的实体类型分类

  • EMNLP2019: Fine-Grained Entity Typing via Hierarchical Multi Graph Convolutional Networks

  • 论文链接: https://www.aclweb.org/anthology/D19-1502/

  • 代码: https://github.com/SIGKDD/HMGCN

  • 解读: 公众号机器学习研究组

异质图经典方法总结(19年)相关推荐

  1. java控制台输出到文件_如何将java控制台的输出内容存入到文本文件中 经典方法...

    如何将java控制台的输出内容存入到文本文件中 经典方法 (2014-04-17 19:27:23) 修改LogWriter类的静态域即可随意切换输出了.main方法中代码不用改变. 代码如下: im ...

  2. 人群计数经典方法Density Map Estimation,密度图估计

    (3)Density Map Estimation(主流) 这是crowd counting的主流方法 传统方法不好在哪里?object detection-based method和regressi ...

  3. Heterogeneous Graph Neural Network(异质图神经网络)

    Heterogeneous Information Network 传统的同构图(Homogeneous Graph)中只存在一种类型的节点和边,当图中的节点和边存在多种类型和各种复杂的关系时,再采用 ...

  4. 武大上交发布首篇「图像匹配」大领域综述!涵盖 8 个子领域,汇总近 20年经典方法

    原文链接:https://bbs.cvmart.net/topics/3176 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 武汉大学和 ...

  5. KDD 2021 | 异质图神经网络的可微元图搜索

    论文标题: DiffMG: Differentiable Meta Graph Search for Heterogeneous Graph Neural Networks 论文地址: https:/ ...

  6. WWW 2021最佳论文亚军:基于属性补全的异质图神经网络新架构

    ©作者 | 机器之心编辑部 来源 | 机器之心 4 月 23 日,万维网顶会 WWW-2021(The Web Conference 2021: International World Wide We ...

  7. RecSys 2019最佳论文:基于深度学习的推荐系统是否真的优于传统经典方法?

    作者丨纪厚业 单位丨北京邮电大学博士生 研究方向丨异质图神经网络,异质图表示学习和推荐系统 本文发表在推荐系统顶会 RecSys 2019 并获得了 Best Paper.作者梳理实现了大量顶会推荐论 ...

  8. CIKM 2021 | 基于异质图学习的搜索广告关键词推荐

    丨目录: - 摘要 - 背景 - 问题定义 - 方法 - 在离线实验 - 结语 - 相关文献 ▐ 摘要 近年来,在线广告在消费者侧的大量工作受到了广泛关注,对广告平台来说,广告主营销优化工作在广告系统 ...

  9. 从数据结构到算法:图网络方法初探

    如果说 2019 年机器学习领域什么方向最火,那么必然有图神经网络的一席之地.其实早在很多年前,图神经网络就以图嵌入.图表示学习.网络嵌入等别名呈现出来,其实所有的这些方法本质上都是作用在图上的机器学 ...

最新文章

  1. 文件夹差异文件对比工具 meld
  2. c++输出的值精确到小数点后5位_C的探查之路05-基本类型
  3. IFE JavaScript Task0002-1 小练习1:处理用户输入
  4. java方法体逻辑不会写怎么办,想自己写框架?不会写Java注解可不行
  5. cocos2dx 引入 libpomelo库
  6. Tensorflow保存模型详解(进阶版二):如何保存最近的.ckpt文件 及 如何分开保存.ckpt数据文件和.meta图文件
  7. (二)java版spring cloud+spring boot 社交电子商务平台 - 整合企业架构的技术点
  8. Django的 select_related 和 prefetch_related 函数对 QuerySet 查询的优化(三)
  9. c语言 获取系统版本,[原创]C/C++ 实现获取Windows操作系统版本信息
  10. Linux C代码实现主函数参数选项解析
  11. 书单|互联网企业面试案头书之架构师篇
  12. 【MySQL】5.7新特性之四
  13. STM32——电容触摸按键实验
  14. C#顺时针逆时针旋转图片
  15. 《算法竞赛进阶指南》荷马史诗
  16. Exchange 2013 启用反垃圾邮件功能
  17. MD5加密是什么?为什么不可解密?
  18. 一次设置,终生屏蔽cdsn
  19. 根据大脑频率调整状态
  20. openGL学习笔记三: glu库及使用

热门文章

  1. 《进击的虫师》当图虫遇到爬虫
  2. Linux E514: write error (file system full?)错误
  3. 详细介绍 Node.js
  4. 智能外呼系统到底有多智能
  5. CRM客户系统怎么用?CRM使用技巧
  6. 03_基于wiringPi的GPIO控制-蜂鸣器
  7. python:math模块的应用
  8. 作为面试官被放鸽子的50个理由,论如何放面试官的鸽子
  9. pta上怎么搜题目_PTA系统常见问题解答
  10. 苹果六电池_苹果深夜发布新笔记本,性能太强了