今天,我们首先将介绍北邮计算机学院教授石川的《异质图神经网络及其在电商中的应用》。

本次讲座中,石川针对图神经网络研究的重要挑战——传统采用的是同质图数据,无法满足业界交互系统对异质图的实际需求,介绍了自己对于解决方案的一系列相关研究工作,包括:异质信息网络的表示学习、浅层模型、深层模型、元路径的选择等关键技术以及它们在电子商务问题中的应用等。

1、异质信息网络的表示学习

作为机器学习和数据挖掘的基础,表示学习加上优化目标和优化算法就构成了机器学习;好的表示对成功的机器学习和数据挖掘有着重要的作用。之前的表示学习主要是基于手工提取特征来实现的,近些年来,由于深度学习的兴起,端到端的表示学习方法可以抽取层次化的特征表示。网络结构的数据在实际应用中非常普遍,学习网络结构的表示是近些年来的研究热点。

目前很多图神经网络主要是基于同质信息网络,同质信息网络只有一种类型的节点和边;在实际应用中,会存在大量由不同节点和边构成的交互系统,例如文献数据、电影数据、以及社交网络知识图谱等,在这些网络中,不同类型的对象相互交互。不同类型的对象性质不同,交互关系的特性不同会导致很大差异的分析,所以在异质网络中,需要考虑不同类型的对象交互关系对结果的影响。

在异质信息网络中,网络模式是对一个网络的元级描述,刻画了网络中包含了不同类型的对象和不同类型的关系。例如在图1的网络实例中,描述了作者撰写论文,论文发表在会议上;这个网络实例就包含三类对象:作者、论文和会议,以及他们之间的相互交互关系。

下图为异质信息网络实例

元路径[1]是异质信息网络中另外一个很重要的概念。简而言之,元路径就是连接两个对象的一个关系序列。如图2 所示,连接两个author可以有不同的元路径。例如:author->paper->author,描述的是两个作者之间的合作关系;还可以有author->paper->venue->paper->author,这条元路径描述的是两个作者参加同一个会议这么一个关系。元路径包含丰富的语意,抽取网络中的一些子结构,因此被广泛应用于异质网络分析中。基于这两个概念的基础上,也提出了很多其他一些概念,例如元图,元结构,以及有约束的元路径等一些概念,它可以更细致的描述网络里面的属性信息。

下图为异质信息网络中的元路径

石川指出,异质信息网络表示学习目前存在一些挑战,例如如何解决异质性、如何融合信息以及捕捉丰富的语义信息等,主要的解决方案有经典浅层模型和深度模型两个方面。

2、浅层模型

在同质网络中,有一些很经典的浅层模型,例如DeepWalk、LINE等一系列方法,这些方法的核心思想是基于随机游走产生一个节点序列,然后类比于自然语言处理单词序列的方法,通过skip-gram的方法来学习网络表示。

在异质网络中也是采用类似的思路,为了高效的随机游走,一般是采用元路径的随机游走方式,元路径在游走的过程中可以把节点类型信息和边类型信息固定下来。图3 为基于元路径随机游走的范式,给以一个元路径,如果是按照给定元路径游走的话,转移概率就是指定类型节点的邻居数目分之一,不按照元路径游走的话,转移概率就是0。

下图为基于元路径的随机游走

针对元路径的随机游走,然后采用skim-gram来进行目标优化,metapath2vec和metapath2vec++有一个区别如下图所示。在soft-max 操作中,metapath2vec++在分母中是按照下一个节点类型中的所有节点求和的,而metapath2vec是不考虑节点类型,直接对所有节点求和。metapath2vec++的优点在于考虑下一个节点的节点类型可以使游走概率的值大一些,在很多情况下效果会好一些。

下图为计算概率中metapath2vector(上)和metapath2vec++(下)

Metapath2vec是基于元路径随机游走和skim-gram的方式解决异质性,也基本上奠基了这个方向研究的基本思路。

HERec[2]是另外一种处理异质信息网络的浅层模型,它的基本思路是通过一些对称的元路径将异质图变成同质图,然后在同质图中用DeepWalk、LINE等方法学习到网络表示。另外一种基于游走的方法是HIN2Vec[3],首先HIN2Vec在异质网络中游走,抽取点边序列,即节点X、Y和它们之间对应的关系R,在游走的过程中点边序列抽取出来就可以构成序列样本,然后就可以通过判断节点X、Y是否具有关系R把原来的问题变成分类问题,将分类问题作为优化目标学习网络表示。

Metapath2vec、HERec和HIN2Vec是异质信息网络表示的三个早期的工作,给后来的工作奠定了基础。最近几年也有一些比较优秀的工作。MCRec[4]通过刻画user和item的丰富的交互关系来学习节点表示。为了找到有代表性的负样本,HeGAN[5]根据关系类型用GAN生成好的负样本。RHINE[6]为了区分异质信息网络中不同类型的关系,借鉴知识表示的思想学习网络表示。

3、深层模型

深层模型就是用神经网络进行深度建模。在推荐领域,一般主要分析user和item之间的交互矩阵来得到user和item之间的隐含特征,但是考虑到异质信息网络实际上包含了不同方面的交互信息,NeuACF[7]尝试将不同方面的信息融合。如图5所示,先通过一些不同方面的元路径抽取不同维度的信息。例如,通过UIU和IUI抽取用户购买记录方面的特征,UIBIU和IBI元路径可以抽取出品牌方面的信息。然后构造出aspect-level的相似性矩阵,然后用MLP学习aspect-level的潜在因子,最后用attention机制将aspect-level的潜在因子融合,得到损失函数。

下图为NeuACF的框架示意图

Attention机制在图神经网络中有着重要的应用,但是在异质信息网络中应用attention需要两方面的考虑:一个是节点级别的attention,考虑节点与邻居之间的attention;另外一个是语义级别的attention,即在元路径上将节点信息通过attention聚合。基于此,HAN模型将attention机制应用到异质信息网络中。如图6所示,HAN[8]首先把节点映射到相同的特征空间,然后用一个node级别的attention机制,把这些邻居节点聚合起来,再用semantic attention机制将元路径信息融合。

下图为HAN框架示意图

在异质图中,不同类型的节点有不同类型的属性特征。HetGNN将节点的属性信息融合到异质信息网络中。如图7所示,HetGNN[9]先考虑某一类型节点的属性信息,通过神经网络将节点不同模态的属性信息融合起来,然后将节点的一跳邻居中同一类型的节点用BLSTM融合起来,最后再将不同类型的节点信息通过神经网络聚合。HetGNN可以处理异质关系和异质属性。

下图为HetGNN架构示意图

接下来石川提到了元路径选择问题。元路径选择是异质信息网络分析的基本步骤,一般来说,都是选择连接关系比较丰富、语义特性比较强的元路径。但是找到这样的元路径需要比较多的领域知识,在实际操作中也会存在一些问题。为此,石川给出了三种解决思路:

  1. 把元路径提纯,不同的元路径表示不同方面的信息,再把不同方面纯化后的信息融合起来;
  2. 可以舍弃元路径,元路径之所以重要是因为它能抽取高阶关系,如果不用元路径也可以通过保持网络模式的结构特性学习到高阶关系;
  3. 自动找寻元路径,例如知识图谱里面有些节点之间存在内在关系,可以借鉴知识补全的思路自动生成元路径。

4、异质图神经网络的应用

图神经网络和网络表示学习目前在产业界应经有很多应用,下面石川以它们在电子商务领域的应用为例,进行了深入浅出的介绍。

4.1、套现用户检测

套现是套取现金的简称,一般是指用违法或虚假的手段交换取得现金利益。如下图所示,判断一个用户是不是套现用户,传统方法是把套现用户检测看成一个分类问题,通过抽取出用户特征,然后用分类器来进行分类。这个过程的一个关键问题是怎么才能够抽取出足够丰富的特征。而在电商特别是互联网金融方面,用户特征大量蕴含在交互行为里面,那么怎么从这种交互行为里面抽取出用户特征,是这个问题的关键。

下图为套现用户检测的关键问题和传统解决方案

对此,[10]提出把用户、商家、设备等信息的交互关系构建为一个异质网络,网络要学出用户的特征表示。进一步提出的模型首先考虑用户的自然属性信息,以及用户基于不同元路径的邻居。更进一步把用户的不同Feature和其邻居特征通过Feature attention机制融合起来,最后利用Path相关的Attention,把基于不同元路径的特征融合起来。模型的相关结构说明如下图所示。

下图为套现用户检测模型的相关说明

4.2、意图推荐

意图推荐这个概念,比较常见而直观的理解可以打开手机淘宝,看一下搜索框中会有的一个默认搜索内容,这个就是系统认为的用户潜在购买意图,意图推荐要解决的问题是如何准确的生成内容。

可以设计一个异质网络来解决这个问题[11]。如图9所示,网络中刻划了用户、物品和查询词三者之间的交互关系,模型来学习user、item、query之间的表示,然后看看针对一个用户来推荐什么样的query。我们同样是基于元路径来聚合邻居信息,在这个过程中可以利用不同的元路径来聚合不同的邻居信息。实际问题当中,user、item、query的量级是相当大的,在亿级的规模。但是用于组成它们的word的数量实际上是不大的,大概是十万级别的。那么仅仅学习word的特征表示,然后query和item的特征由一些word拼接而成的,这样就减少了计算量。通过和工业界的算法对比,提出的方法利用增加的元路径信息得到了性能的稳步提升。

下图为用于意图推荐的异质图神经网络

4.3、用户聚类

用户聚类是利用用户的特征信息,以及用户的社交连接关系对用户做一个类别划分,对广告推荐是很有帮助的。目前深度学习已经广泛应用于推荐、聚类任务当中。聚类主要是分析用户的特征信息,特征实际上也包含有结构信息,能不能把结构和特征两方面联合起来做聚类,是接下来介绍的一个模型的工作[12]首先用深度神经网络学得用户的隐含特征表示,这是深度聚类里面常用的做法。另一方面,根据用户的社交关系,构造KNN图得到用户的关联图,学得表示过程中,把DNN里面学的每一层的特征和GCN里面的节点特征表示拼合起来再做聚合。如图10所示,在这个过程当中,由于这里的GCN需要有监督信息,我们把在DNN里面做的聚类做一个软划分,得到Q分布,进而取平方得到P分布,这里的P分布当作一个伪标签来指导GNN学习,取得了比较明显的效果。

下图为用户聚类模型中GNN的监督学习

除了上面的介绍之外,还有一些其他的应用。如共享推荐中一个用户是否把新闻或者商品推荐给他的朋友;基于朋友关系的推荐中根据朋友的点赞信息决定是否给用户推荐。对于这些含有丰富交互信息的应用场景都可以采用异质网络建模和采用图神经网络进行分析。

5、结语

石川最后总结说,异质信息网络被广泛应用在数据挖掘领域,研究有近十年的历史,特别是最近几年随着网络表示学习的兴起,工业界中也随之涌现了大量需求。异质信息网络能够很自然的融合不同方面的信息,所以在解决大数据的多样性方面,是一个比较有效的方法。

关于异质信息网络特别是异质图网络的未来研究方向,石川认为可以从以下几个方面入手:

  • 异质图神经网络内在学习机理
  • 动态网络
  • 多模态数据处理

异质信息网络的更多资料可以访问网站:www.shichuan.org.

6、Q&A

Q1: 为什么知识图谱表示学习方法很少用到异质网络表示学习中?
A1: 我认为知识图谱可以看成是一种异质网络,它是一种模式丰富的异质网络,那么在这种网络里面,它有很多不同类型的结点,有很多不同类型的关系。这个的话实际上是传统的异质网络很少分析的,也是很难分析的。网络表示学习和知识图谱的表示学习,是两种不同的角度来做不同的事情,其实我觉得二者是可以相互借鉴、相互结合的,但是目前还没有什么太多太好的工作。

Q2:网络表示学习的结果如何与结点的属性特征、描述类的文本特征进行融合,难点在哪里?以及如何自动发现元路径?
A2: 一般的话还是要根据领域知识来选择一些语意,选择语意明确、结构丰富的这样一些元路径,这样选出的路径对于实际问题一般来说效果都还不错。

Q3:广度学习主要是通过定义元路径来实现的吗?可以谈一谈广度学习和图神经网络的关系以及二者今后如何发展情况吗?
A3: 广度学习是近些年Philip S Yu教授倡导的一个研究方向,里面的主要一种技术方法也是用异质信息网络,异质信息网络可以很自然的把不同方面的信息关联起来,起到一个信息融合的作用。在这里面我们可以用元路径,那么就是说可以融合不同方面的信息,抽取不同方面的这种子结构。所以这是里面一个很重要的方法。

Q4: 异质信息网络下一步的发展方向是什么?
A3: 一个是我前面说到的,元路径选择的困境,实际上这是长期困扰这个领域的一个事情。因为这个领域的分析是严重依赖于元路径,怎么能够不依赖于元路径,或者设计一些更好的方法,能够探索语意信息,这是一个方向。在异质图神经网络里面如何更好的做聚合,实际上是研究也才刚刚开始。然后还有像这种动态网络的,在异质图里面怎么考虑这种动态性等等,都值得深入研究。

7、参考文献

[1] YuXiao Dong,Nitesh V. Chawla,Ananthram Swami. Metapath2vec: Scalable Representation Learning for Heterogeneous Networks. KDD, 2017.
[2] Chuan Shi, Binbin Hu, Wayne XinZhao, Philip S. Yu. Heterogeneous Information Network Embedding for Recommendation.TKDE,2018.
[3] Tao-yang Fu, Wang-Chien Lee, ZhenLei. HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning. CIKM,2017.
[4] Binbin Hu, Chuan Shi, Wayne XinZhao, Philip S. Yu. Leveraging Meta-path based Context for Top-N Recommendation with A Neural Co-Attention Model. KDD,2018.
[5] Binbin Hu, Yuan Fang, Chuan Shi.Adversarial Learning on Heterogeneous Information Networks. KDD,2019.
[6] Chuan Shi, Yuanfu Lu, Linmei Hu,Zhiyuan Liu et al. RHINE: Relation Structure-Aware Heterogeneous Information Network Embedding. TKDE, 2020
[7] Xiaotian Han, Chuan Shi, SenzhangWang, Philip S. Yu, Li Song.Aspect-Level Deep Collaborative Filtering viaHeterogeneous Information Networks. IJCAI,2018.
[8] Wang, Xiao, Houye Ji, Chuan Shi,Bai Wang, Yanfang Ye, Peng Cui, and Philip S. Yu. Heterogeneous Graph Attention Network. WWW,2019.
[9] Chuxu Zhang, Dongjin Song, Chao Huang, Ananthram Swami, Nitesh V. Chawla. Heterogeneous Graph Neural Network.KDD,2019.
[10] Binbin Hu, Zhiqiang Zhang, Chuan Shi, Jun Zhou, XiaoLong Li, Yuan Qi Cash-out User Detection based on Attributed HeterogeneousInformation Network with a Hierarchical Attention Mechanism. AAAI,2019.
[11] Shaohua Fan, Junxiong Zhu, Xiaotian Han, Chuan Shi,Linmei Hu, Biyu Ma, Yongliang Li Metapath-guided Heterogeneous Graph NeuralNetwork for Intent Recommendation. KDD,2019.
[12] Deyu Bo, Xiao Wang, Chuan Shi, Meiqi Zhu, Emiao Lu, PengCui. Structural Deep Clustering Network. WWW,2020.

异质图神经网络及其在电商领域中的应用相关推荐

  1. 电商领域中SKU和SPU区别比较

    2019独角兽企业重金招聘Python工程师标准>>> 电商领域中SKU和SPU区别比较 在电商领域中我们或许会经常听到两个术语SKU和SPU, 那么什么是SKU和SPU呢, 让我们 ...

  2. 4.2-知识图谱在电商领域中的应用实践

    通过建立商品知识图谱,使用商品之间的关联信息可以有效的做商品推荐,也可以使用图谱中商品的特征信息辅助客服工作. 知识图谱在电商领域中的推荐类应用 知识图谱就是实体的属性关系网,能够很好的表达实体之间的 ...

  3. 智能化物流系统在电商领域的应用

    作者:禅与计算机程序设计艺术 智能化物流系统在电商领域的应用 背景介绍 随着互联网的快速发展和电商平台的兴起,物流系统在电商领域中的作用越来越重要.传统的物流系统已经难以满足电商高速发展对物流效率和品 ...

  4. 杂谈:电商平台中的图片资源优化实战

    图片渲染优化 以前谈过许多次图片问题.也给出了几种方案.在实际使用中这几种无疑是可行而且方便的: loading connection API + promise.all()异步加载图片 骨架屏 懒加 ...

  5. 2019年,异质图神经网络领域有哪些值得读的顶会论文?

    本文主要梳理了 2019 年各大顶会上关于异质图神经网络的论文,包括算法研究及应用研究.同时,作者也整理了相关大牛老师/论文/资料/数据集供大家学习. 作者丨纪厚业 学校丨北京邮电大学博士生 研究方向 ...

  6. KDD 2021 | 异质图神经网络的可微元图搜索

    论文标题: DiffMG: Differentiable Meta Graph Search for Heterogeneous Graph Neural Networks 论文地址: https:/ ...

  7. WWW 2021最佳论文亚军:基于属性补全的异质图神经网络新架构

    ©作者 | 机器之心编辑部 来源 | 机器之心 4 月 23 日,万维网顶会 WWW-2021(The Web Conference 2021: International World Wide We ...

  8. 直播 | KDD 2021论文解读:基于协同对比学习的自监督异质图神经网络

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  9. 直播 | 北邮博士生纪厚业:异质图神经网络在阿里推荐业务中的探索

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

最新文章

  1. UIPickerView
  2. python语法速成方法_30分钟学完Python基础语法
  3. ubuntu 更新系统时间
  4. linux条件表达式例子,Linux的Iptables命令的基本知识(三)-常用匹配条件示例和执行动作...
  5. 让您的Xcode键字如飞
  6. Java不是true值不变_Java语言中String a=a;String b=a; 为什么 a==b 值为 true?
  7. [再寄小读者之数学篇](2014-07-27 $H^{-1}$ 中的有界集与弱收敛极限)
  8. 一些and知识 和ui
  9. MapReduce实战(三)分区的实现
  10. vue-router个人总结
  11. comsol 超声声场模拟_Comsol Multiphysics 声场仿真模块整体介绍
  12. 中仪股份管道机器人_中仪股份中仪股份cctv检测管道机器人X5-HSX5-HS
  13. overleaf插入参考文献
  14. 计算机目录的制作步骤,怎么用word2003制作目录
  15. CST——贴片天线仿真
  16. 论坛议程|COSCon'22 大数据(D)
  17. nginx限速_NGINX限速简而言之
  18. 科比都这么努力,你还有什么借口不努力呢?
  19. 什么决定你的江湖地位
  20. F5负载均衡器通过iRules实现http应用的灵活转发

热门文章

  1. PHP实现对MongoDB的基础操作
  2. 微软发布Surface平板电脑 再度挑战苹果
  3. 云计算的基础设施服务
  4. es 中关于 term,match, text, keyword
  5. 招贤纳士|360WEB平台云平台部招人啦
  6. 大规模分布式系统资源管理(一)
  7. 通过@Import注解把类注入容器的四种方式
  8. 服务器是多用户服务的计算机,Win10权限管理与多用户远程登录(多方案)
  9. Maven+Mybatis+Spring+SpringMVC实现分页
  10. OSSemPost()--发出一个信号量