HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。
在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。
点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。
这是 PaperDaily 的第 18 篇文章
本期推荐的论文笔记来自 PaperWeekly 社区用户 @YFLu。这篇论文发表在刚刚结束的 2017CIKM 会议上,论文提出了一种针对异质信息网络的表示学习框架 HIN2Vec。
不同于之前很多基于 Skip-gram 语言模型的工作,HIN2Vec 的核心是一个神经网络模型,不仅能够学习网络中节点的表示,同时还学到了关系(元路径)的表示。
如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。
关于作者:陆元福,北京邮电大学计算机系硕士生,研究方向为异质信息网络的表示学习。
■ 论文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning
■ 链接 | https://www.paperweekly.site/papers/1182
■ 作者 | YFLu
HIN2Vec 是一篇关于异质信息网络中的表示学习的论文,发表在刚刚结束的 2017CIKM 会议上。这篇论文和我最近的工作有一些相似之处,一些想法甚至有些相同,同样有很多地方值得借鉴。
论文提出了一种针对异质信息网络的表示学习框架 HIN2Vec,不同于之前很多基于 Skip-gram 语言模型的工作,HIN2Vec 的核心是一个神经网络模型,不仅能够学习网络中节点的表示,同时还学到了关系(元路径)的表示。
同时论文还对异质信息网络中表示学习的一些问题做了研究实验,例如:元路径向量的正则化、负采样过程中节点的选择以及随机游走中的循环序列问题。
Introduction
论文首先指出了现有模型存在的一些问题,之前的很多工作仅仅局限于同质信息网络,而且往往只考虑节点之间的整合的信息或者限制类型的关系。虽然 ESim 模型考虑了节点间的不同关系,但是该模型过于依赖人为定义的元路径以及每条元路径人为设置的权重。
基于现有模型存在的问题,论文提出了 HIN2Vec 模型,通过研究节点之间不同类型的关系和网络结构,学习异质信息网络中丰富的信息。由于不同的元路径可能有不同的语义信息,所以作者认为对嵌入在元路径和整个网络结构中的丰富信息进行编码,有助于学习更有意义的表示。
和之前的一些模型相比,HIN2Vec 模型保留了更多的上下文信息,不仅假设存在关系的两个节点是相关的,而且还区分节点之间的不同关系,并通过共同学习关系向量区别对待。
论文的主要贡献:
证明了节点间不同类型的关系能够更好的捕获更多嵌入在网络结构中的细节信息,因此通过捕获节点间各种不同类型的关系,有助于网络的表示学习。
提出了 HIN2Vec 模型,包括两部分:首先,基于随机游走和负采样生成训练数据,然后,设计逻辑二元分类器用于预测两个给定的节点是否存在特定的关系。同时,考虑了循环序列、负采样和正则化问题。
实验很充分,包括多标签分类和链路预测,同时实验研究了循环序列、负采样以及正则化对实验分类结果的影响。
HIN2Vec
Framework
HIN2Vec 模型分为两部分:基于随机游走的数据生成部分和表示学习部分。数据生成部分,基于随机游走和负采样生成符合目标关系的数据,以用于表示学习。表示学习部分是一个神经网络模型,通过最大化预测节点之间关系的可能性,同时学习节点和关系的表示向量,模型的整体框架可以见下图。
值得注意的是,HIN2Vec 模型同时学习了节点和关系(元路径)的表示向量,这种多任务学习(multi-task learning)方法能够把不同关系的丰富信息和整体网络结构联合嵌入到节点向量中。
Representation Learning
HIN2Vec 模型的基本想法是对于多个预测任务,每个任务对应于一条元路径,联合学习一个模型,学到每个节点的向量表示,所以一个简单的想法就是构建一个神经网络模型,预测任意给定节点对之间的一组目标关系。
论文最初的想法是一个多分类模型,即给定两个节点和一个目标关系集合,通过下图 2 的神经网络模型训练预测概率值 P(ri|x,y),(i=1…|R|),但是对于这样的一个模型的训练数据的获取是非常复杂的,因为对于一个复杂网络而言,获取网络中两个节点的所有关系是很困难的。
所以论文退而求其次,将问题简化成二分类问题,即给定两个节点 x,y,预测节点间是否存在确定的关系 r,这样就避免了遍历网络中的所有关系,图 3 所示就是 HIN2Vec 的神经网络模型。
模型的输入层是三个 one-hot 编码的向量,经过隐层层转换到隐含向量,值得注意的是,因为关系和节点的语义含义是不同的,所以论文对关系向量 r 做了正则化处理,这种处理方式限制了关系向量的值在 0 到 1 之间。
然后,模型对三个隐含向量运用一个 Hadamard 函数(例如,对应元素相乘),对乘积再运用一个线性激活函数,最后输出层对成绩求和后的值进行一个 sigmoid 非线性转换。
模型的训练数据集是以四元组的形式给出的,形如 $,其中,其中 L(x,y,r) 指示指示 x,y 之间是否存在关系之间是否存在关系 r。具体的:
Traning Data Preparation
论文采用随机游走的方式生成节点序列,但是需要注意的是,不同于 metapath2vec[1] 按照给定元路径模式游走的方式,HIN2Vec 模型完全随机选择游走节点,只要节点有连接均可游走。
例如,随机游走得到序列 P1,P2,A1,P3,A1,那么对于节点 P1,可以产生训练数据 $和$。
在论文中,作者讨论了随机游走过程中可能出现的循环的情况,提出通过检查重复节点的方式消除循环,并在实验部分分析了是否消环对实验结果的影响,但是个人认为这个地方的原理性介绍比较欠缺,对于消除循环的具体做法没有给出很详细的说明解释,循环的检测是根据前面已生成的所有节点还是部分节点,也没有给出说明。
论文还讨论了训练数据集中负样本的选择,论文也是采用 word2vec 中的负采样的方法产生负样本。对于一个正样本 $,通过随机替换,通过随机替换 x,y,r 中的任意一个,生成负样本中的任意一个,生成负样本,其中,其中 x’’ 和 y’’ 之间不一定有确定的关系之间不一定有确定的关系 r’’$。
但是,由于网络中的关系数量是很少的,节点的数量远远大于关系的数量,这样就很容易产生错误的负样本(其实是可能正样本),所以论文采用只随机替换 x 或 y 中的一个,而保持 r 是不变的,同时保持 x 或 y 的类型不变。
Summary
总体来说,论文的想法还是很新颖的,把节点和节点间的关系作为一种二分类问题考虑,给定两个节点 x,y,通过预测节点之间是否存在确定的关系 r,同时学习到了节点和关系的向量表示。
此外,论文考虑到了节点和关系的语义是不同的,因此它们的表示空间也应该不通,所以论文对关系向量运用了一个正则函数。对于随机游走过程中可能会出现循环节点的问题,论文也给出了实验分析,同时阐述了负采样时候节点及节点类型的选择。
个人认为,论文的不足之处在于随机游走过程中如何消除循环,没有给出较为详细的说明。此外,对于学习到的关系的表示如何应用到实际的数据挖掘任务中,论文也没有给出实验分析。
Reference
[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017: 135-144.
本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!
我是彩蛋
解锁新功能:热门职位推荐!
PaperWeekly小程序升级啦
今日arXiv√猜你喜欢√热门职位√
找全职找实习都不是问题
解锁方式
1. 识别下方二维码打开小程序
2. 用PaperWeekly社区账号进行登陆
3. 登陆后即可解锁所有功能
职位发布
请添加小助手微信(pwbot01)进行咨询
长按识别二维码,使用小程序
*点击阅读原文即可注册
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 查看原论文
HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18相关推荐
- 【论文翻译】KDD19 -HeGAN: Adversarial Learning on Heterogeneous Information Networks 异构信息网络中的对抗学习
文章目录 摘要 1 引言 2 定义 3 所提方法:HeGAN 3.1 整体框架 3.2 HeGAN中的生成器和鉴别器 4 实验 4.1 实验设置 4.2 实验分析 5 相关工作 6 结论 论文链接: ...
- hin2vec 异质信息网络表示学习 个人笔记
hin2vec想法其实挺巧妙的 它学习两种embedding,一种是对于节点的嵌入,一种是对于元路径(meta path)的嵌入 (ps 作者在文中说如果要强调路径的有向性,强调路径开始节点和终止节点 ...
- AliExpress:在检索式问答系统中应用迁移学习 | PaperDaily #24
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
- 异质信息网络表征学习综述
摘要 信息网络表征学习的目的: 利用网络的拓扑结构 .节点内容等信息将节点嵌入到低维的向量空间中 ,同时保留原始网络固有的结构特征和内容特征 ,从而使节点的分类.聚类.链路预测等网络分析任务能够基于低 ...
- 北邮石川教授:「异质信息网络」研究现状及未来发展
本文转载自:https://www.leiphone.com/news/201801/MpY4WF11OTnFLp7y.html 图片均来源于转载地址 异质信息网络研究现状及未来发展 一.引言 现实生 ...
- 异质信息网络和知识图谱
1. 前言 最近在研究异质信息网络,发现知识图谱无论是在建模方式还是下游任务都与异质信息网络有很大的相似性. 在这里简单介绍一下知识图谱的相关概念和从网上找来的知识图谱嵌入综述类的文章或者博客进行总结 ...
- 图表示学习和异质信息网络
图表示学习和异质信息网络 图表示学习 基本概念 相关技术 基于降维解析的方法 基于矩阵分解的方法 基于随机游走的方法 基于深度学习的方法 异质信息网络 基本概念 语义探索方法 元路径 受限元路径 加权 ...
- 精准医学中的深度学习和影像组学
影像科正在经历一种范式转变,即使用人工智能与机器集成以及深度学习与影像组学更好地定义组织特征,从而实现计算机科学与影像学的共生关系.研究的目标是使用集成的深度学习和具有影像学参数的影像组学来为患者进行 ...
- 【论文翻译】异构信息网络中的深层集合分类
异构信息网络中的深层集合分类 摘要 在过去十年中,集体分类引起了相当大的关注,在这十年中,一组实例中的标签是相互关联的,应当集体推断,而不是独立地推断.传统的集体分类方法主要集中在开发简单的关系特征( ...
最新文章
- 设计RPC接口时,你有考虑过这些吗?
- spcontent------spcollection.add(field)
- Android ProGuard使用要点!
- spring初始化web_了解Spring Web初始化
- python程序设计语言是什么类型的语言-Python 是弱类型的语言 强类型和弱类型的语言区别...
- android Mp3播放器之音频文件扫描
- 24点——判断4个数能否经过运算使得结果为24
- MyEclipse创建JavaWeb应用和TomCat的配置
- css html 抽屉,CSS快速入门-前端布局1(抽屉)(示例代码)
- JCO 自定义DestinationDataProvider
- java ip 范围内打卡_定位地理位置PHP判断员工打卡签到经纬度是否在打卡之内
- mysql离散查询_如何写出高性能的MySQL查询
- c语言 乘号 指针 避免,C语言指针篇(一)指针与指针变量
- 蓝桥杯 ADV-233 算法提高 队列操作
- JUnit 4 vs JUnit 5
- 论文中的三线表及表格规范
- Flutter AspectRatio 宽高比设定
- Web前端:什么是前端框架?
- java使用阿里云发送通知短信
- 智商黑洞(门萨Mensa测试)10
热门文章
- ElasticSearch入门 第一篇:Windows下安装ElasticSearch
- python 日期格式和字符串格式的转化
- Universal-Image-Loader(UIL)图片载入框架使用简介
- cookie对比localStorage哪个适合作为网站皮肤存储
- 双系统重装windows后如何恢复ubuntu启动项
- 20145104张家明实验五
- MongoDB只查询一个字段
- php对应哪个oracle版本,Oracle 版本说明
- 惜分飞oracle,惜分飞 - 提供7*24专业数据库(Oracle,SQL Server,MySQL等)恢复和Oracle技术服务@Tel:+86 13429648788...
- php记录读取数据类型,数据读取 · ThinkPHP 3.2.3开发手册 · 看云