异质信息网络表征学习综述
摘要
信息网络表征学习的目的:
利用网络的拓扑结构 、节点内容等信息将节点嵌入到低维的向量空间中 ,同时保留原始网络固有的结构特征和内容特征 ,从而使节点的分类、聚类、链路预测等网络分析任务能够基于低维、稠密的向量完成。【一种降维技术】
引言
信息网络表征学习,也被称为表示学习或嵌入学习。
在嵌入过程中 ,高出(入)度节点的结构和内容信息可用于辅助低出(入)度节点的结构或语义特征的表示 ,从而有效缓解网络数据稀疏性问题 。通过嵌入 ,网络中的任意节点均可以用 一个低维的稠密向量来表示,使得网络结构/语义的 相关性能够快速计算出来 ,为网络可视化 、节点分 类、聚类以及链路预测、Facebook 搜索、社区检 测、微博用户标记等网络分析任务提供有力的支持。
如下图,将一个网络映射到二维向量空间中;不同颜色代表不同属性,相同属性映射后在低维空间中会比较相近。
异质信息网络的表征学习不仅能够有效缓解网络数据高维 、稀疏性问题 ,还能融合网络中不同类型的异质信息 ,使学习到的特征表示更有意义和价值。
相关知识
网络表征学习常使用一阶邻近性和高阶邻近性表示节点间邻域结构的相似程度,使用属性相似性表示节点间属性特征的相似程度。
- 一节邻近性:
给定网络G=(V,ε)G=(V,\varepsilon)G=(V,ε),节点vi∈Vv_i∈Vvi∈V和vj∈Vv_j∈Vvj∈V之间的一阶邻近性定义为viv_ivi和vjv_jvj之间边上的权重;
权重越大,viv_ivi和vjv_jvj之间的邻近程度越高。 - 高阶邻近性:
给定网络G=(V,ε)G=(V,\varepsilon)G=(V,ε),设AAA为网络GGG的邻接矩阵,A^t\hat{A}^tA^t是从AAA的行归一化获得的kkk步概率转移矩阵,即A^t=A^1⋯A^1⏟k\hat{A}^t=\underbrace{\hat{A}^1\cdots \hat{A}^1}_{k}A^t=kA^1⋯A^1,M=A^1+A^2+⋯A^kM=\hat{A}^1+\hat{A}^2+\cdots \hat{A}^kM=A^1+A^2+⋯A^k,则节点viv_ivi和vjv_jvj之间的kkk阶邻近性定义为MMM的行向量MiM_iMi和MjM_jMj之间的相似性,即sij(k)=sim(Mi,Mj)s^{(k)}_{ij} =sim(M_i,M_j)sij(k)=sim(Mi,Mj),,其中相似性函数sim()sim()sim()可以是欧几 里得距离或余弦相似度。 - 属性相似度:
给定网络G=(V,ε,F)G=(V,\varepsilon,F)G=(V,ε,F),其中FFF是网络中节点的属性特征矩阵,节点viv_ivi和vjv_jvj之间的属性相似性定义为FFF的行向量FiF_iFi和FjF_jFj之间的相似性,即sij(k)=sim(Fi,Fj)s^{(k)}_{ij}=sim(F_i,F_j)sij(k)=sim(Fi,Fj)。
属性同质网络 (AHoN):
如果一个同质网络中每个节点都带有描述其性质的属性 ,则称该网络为属性同质网络 (AHoN)。结构异质网络 (SHeN):
只用一个网络G=(V,ε)G= (V, ε)G=(V,ε)表示 ,节点和边具有不同类型。属性异质网络 (AHeN):
只用一个网络表示,节点和边具有不同类型 ,同时每个节点都有描述其属性的特征 ,表示为G=(N,ε,F)G=(N,ε,F)G=(N,ε,F)。其中属性 特征矩阵F=[F1,F2,...,Fi,...,F∣N∣]TF=[F_1,F_2,..., F_i,..., F_{|N|}]^TF=[F1,F2,...,Fi,...,F∣N∣]T将所有类 型节点的属性连接在一起 ,FFF的行向量FiF_iFi表示第i 个节点vi∈Nv_i ∈ Nvi∈N的属性特征。
例子:
- 上图中G=(N,ε,F)G=(N,ε,F)G=(N,ε,F),是一个属性异质网络。
- 节点N={a1,a2,a3,a4,p1,p2,p3,p4,v1,v2}N=\{a_1,a_2, a_3,a_4,p_1,p_2,p_3,p_4,v_1,v_2\}N={a1,a2,a3,a4,p1,p2,p3,p4,v1,v2}
- 边ε={a1p1,p1v1,⋯}ε=\{a_1p_1,p_1v_1,\cdots\}ε={a1p1,p1v1,⋯}
- 节点映射函数:φ:N→{A,P,V}φ:N → \{A,P,V\}φ:N→{A,P,V}
- 边映射函数:ε→{撰写,发表,引用}ε → \{撰写 , 发表 , 引 用\}ε→{撰写,发表,引用}
- 属性矩阵F={F1,F2,⋯,F10}TF=\{F_1,F_2,\cdots,F_{10}\}^TF={F1,F2,⋯,F10}T
- 多层网络 (MLN):
多层网络 (也称为耦合异质网络 )由多个不同但相关的子网络组成 ,这些子网络通过网络间的边相连 。
“不同 ”是指各个子网的节点类型不同 ,“相关 ”是指不同子网的节点之间具有特定类型的交互或关系 (跨层网络依赖)。
跨层网络依赖在某种程度上蕴含了节点邻近度 ,对网络内的边提供补充 信息 ,使隐特征更加全面和准确 ,有效缓解由于网络 内的边缺失带来的冷启动问题 ,对于理解整个系统 至关重要 。
- 多视图网络 (MVN):
多视图网络包含多个网络或多个视图 ,每个视图对应一种类型的边,不同视图中的节点集可以相同 ,也可以不同。【视图之间可以有共享节点 ,不同视图的边集没有交集。】
同一视图中 节点的类型可以相同 (同质视图 ,homo-view ),也可 以不同 (异质视图 ,heter-view)。
例子:
- 多重异质网络 (MHeN):
多重异质网络是一对节点之间可以有多种链接类型的异质网络 ,也称多关系网络 。
例子:
多分辨率多网络 (MRMIN)
:没看懂- 异质特征网络 (HeFN):
异质特征网络是指一个同质网络中的节点具有从多个视图收集的一组特征。
令{F(i)},i=1,2,...,I\{F^{(i)}\}, i=1,2,..., I{F(i)},i=1,2,...,I是从III个不同的视图为NNN个实例收集的一组相关特征矩阵 ,其中最后一 个特征矩阵F(I)=GF^{(I)}=GF(I)=G为描述NNN个实例之间关系的加权邻接矩阵.
比如亚马逊上的产品有产品信息和客户评论等多种描述 ,这些描述相互补充,可用于构 建{F(i)}\{F(i)\}{F(i)};而客户的购买记录可用于构建GGG。
异质特征网络HeFN与属性异质网络AHeN 和属性多重异质网络 AMHeN的差异在于:
- AHeN 关注单个异质网络和单个特征矩阵;
- HeFN致力于 单个同质网络和多个特征矩阵;
- 而 AMHeN涉及多个异质网络和单个特征矩阵 。
- 动态异质网络 (DHeN):
动态异质网络是带 有时间戳的异质网络的集合 ,表示为G=(N,ε,T)G=(N,ε,T)G=(N,ε,T)。
T={1,2,⋯,z}T=\{1,2,\cdots,z\}T={1,2,⋯,z}是时间戳的集合,Gt=(Nt,εt)(t∈T)G^t=(N^t,ε^t)(t∈T)Gt=(Nt,εt)(t∈T)表示时间戳为ttt时的静态异质网络。注意:在所有时间戳ttt当 中,节点的类型和边的类型保持不变。
表征学习目标:
学习网络中节点的低维向量H∈R∣N∣×dH ∈R^{|N|×d}H∈R∣N∣×d,同时保留原始网络中节点之间的结构和语义相关性 (比如一 阶邻近性和高阶邻近性 ),其中ddd是嵌入维度 ,∣N∣|N|∣N∣表示节点数目 ,d<<∣N∣d<<|N|d<<∣N∣。对于属性网络 ,HHH需要保留节点属性间的相似性。
常用技术
- 随机游走:
一种经典的图分析模型,常用于刻画网络中节点间的可达性,被广泛应用于网络表征学习中。
在同质信息网络中,节点类型单一,游走可以沿任意的路径进行;
在异质信息网络中,由于节点 /边的类型不同,游走可以对节点序列施加类型约束,确保将不同类型节点之间的语义关系融合到嵌入模型中 , 更好地抽取网络中的结构信息。针对描述节点属性的特征矩阵 ,还可以根据特征间的相似性进行游走。
异质信息网络中的随机游走可以分为结构游走和特征游走 ,前者捕捉节点间的结构邻近性,后者捕捉节点间的属性邻近性。
结构游走:
结构游走基于网络的拓扑结构获取节点序列,包括基于元路径、元图或网络模式的随机游走。特征游走:
特征游走基于描述节点属性的特征矩阵获得节点序列。
特征游走不直接计算任何实例对之间的相似度,有效缓解了大规模网络中相似度计算时间、空间复杂度高的问题 ,并且各个特征矩阵上的游走可以按分布式的方式进行 ,使游走具有可扩展性。
尽管各个特征矩阵异质,但是在各个特征矩阵上游走获得的均是同质的节点序列,可以与结构游走获得的节点序列一同处理,自然融合了网络的结构和节点的多种属性信息。
负采样:
表征学习过程中,应尽量使每个中心节点与其邻居彼此靠近(嵌入向量相似)并远离所有其他节点。其他节点很多 ,为了减少计算成本,负采样 (NS)随机采样少量非邻居节点(负样本),中心节点只需要远离负样本即可。
- 许多算法在使用 NS时,负样本是从所有样本NNN中随机选择,因此节点的邻居也可能被选择为负样本,这会带来 “流行邻居问题 ”,即度高的节点比度低的节点被选择的可能性大,导致度高节点的嵌入过度收缩,效果不佳。对于邻居节点的度也很高的节点,情况更糟。
异质信息网络表征学习综述相关推荐
- 《异质网络表征学习的研究进展》
文章链接: link. 基础信息 包含不同类型节点和边的为异质信息网络. 元路径是定义在网络模式上的链接两类对象的一条路径 挑战 异质信息网络的复杂性也为网络表征学习提出了新的挑战: 节点和边的异质性 ...
- hin2vec 异质信息网络表示学习 个人笔记
hin2vec想法其实挺巧妙的 它学习两种embedding,一种是对于节点的嵌入,一种是对于元路径(meta path)的嵌入 (ps 作者在文中说如果要强调路径的有向性,强调路径开始节点和终止节点 ...
- 【论文翻译|2021】A survey on heterogeneous network representation learning 异构网络表示学习综述
文章目录 摘要 1引言 2 相关工作 3 相关概念 4 分类 4.1 异构信息网络表示方法概览 4.2 异构信息网络嵌入算法的分类 4.3 基于路径的算法 4.3.1 传统的机器学习 5 讨论 5.1 ...
- 图表示学习和异质信息网络
图表示学习和异质信息网络 图表示学习 基本概念 相关技术 基于降维解析的方法 基于矩阵分解的方法 基于随机游走的方法 基于深度学习的方法 异质信息网络 基本概念 语义探索方法 元路径 受限元路径 加权 ...
- 因果表征学习最新综述:连接因果科学和机器学习的桥梁
来源:集智俱乐部 作者:蔡心宇 审校:龚鹤扬.陆超超 编辑:邓一雪 论文题目: Towards Causal Representation Learning 论文地址: https://arxiv.o ...
- HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
- 多模态学习综述及最新方向
作者:yougeii (HKU CV) 本文经过作者同意转载,著作权归属原作者 本文主要内容总结于TPAMI综述文献, 笔者附加相关方向最新论文和分析. Paper: Multimodal Machi ...
- 中科院周少华教授:对深度学习自动化、通用表征学习的研究心得
2021-02-06 19:36:24 医学影像AI的落地道阻且长.在深度学习自动化.通用表征学习.学习与知识融合等方向上,2020年底当选NAI Fellow的周少华教授分享了最新的学术研究成果. ...
- 异质信息网络和知识图谱
1. 前言 最近在研究异质信息网络,发现知识图谱无论是在建模方式还是下游任务都与异质信息网络有很大的相似性. 在这里简单介绍一下知识图谱的相关概念和从网上找来的知识图谱嵌入综述类的文章或者博客进行总结 ...
最新文章
- 基于GeoMipmap的地形系统。
- mybatis crud_MyBatis教程– CRUD操作和映射关系–第2部分
- 可用性测试(用户体验)测试
- CTF竞赛模式与训练平台
- Atitit.md5 实现原理
- Docker环境调优
- 软件开发的版本控制管理
- ThoughtWorks面试经历——武汉java开发
- Docker入门之-网络(三):容器如何与外部世界通信
- Monkey测试------报错日志分析参考
- 如何制作一个优秀的个人网站?
- 漏洞利用六:Linux系统漏洞利用
- ABP 6.0.0-rc.1的新特性
- excel表格末尾添加一行_七夕表白,用Excel试试!抖音爆红,一晚点赞破百万
- CDC *pDC=GetDC();具体是什么意思?
- MPLS中的标签信息库LIB和标签转发信息库LFIB + RIB/FIB + ARP/FDB + CAM/TCAM
- 互联网行业职位介绍 —— OD、PM、RD、FE、UE、QA、OP、DBA...
- 文献阅读笔记:Unsupervised Machine Translation Using Monolingual Corpora Only
- MySQL系列4—数据库安全性
- 浅谈马氏距离【Mahalonobis Distance】
热门文章
- 筛质数—(朴素筛法、埃氏筛法、欧拉筛法(线性筛法))
- MySQL数据库实际应用中,需求分析阶段需要做什么?
- C# and VB.NET Comparison Cheat Sheet
- hihoCoder1290. Demo Day
- 计算机进程同步实验观察结果记录表,实验5 操作系统进程与文件管理 实验报告表 作业 5.doc...
- (2020.12.7)初次web前端性能优化记录
- R语言使用as.vector函数将矩阵数据转化为向量数据(matrix to vector)
- SQL 语句多表联查
- Signal:python用信号处理程序的机制及用法举例
- 毕设 深度学习卷积神经网络的花卉识别