链接:https://arxiv.org/pdf/1809.05124.pdf

本文主要关注Network embedding问题,以往的network embedding方法只将是网络中的边看作二分类的边(0,1),忽略了边的标签信息,本文提出的方法能够较好的保存网络结构和边的语义信息来进行network embedding的学习。实验结果证明本文的方法在多标签结点分类任务中有着突出表现。

Background

Network embedding的工作就是学习得到低维度的向量来表示网络中的结点,低维度的向量包含了结点之间边的复杂信息。这些学习得到的向量可以用来结点分类,结点与结点之间的关系预测。

Model

本文将总体的损失函数分为两块:Structural Loss和Relational Loss,定义为:

Structural loss:

给定中心结点u,模型最大化观察到“上下文”结点v的情况下u的概率,C(v)表示点v的“上下文”结点,“上下文”结点不是直接连接的结点,而是用类似于deepwalk中的random walk方法得到。通过不断在网络中游走,得到多串序列,在序列中结点V的“上下文”结点为以点V为中心的窗口大小内的结点。本文采用skip-gram模型来定义Pr(u|v),Φ(v)是结点作为中心词的向量,Φ‘(v)是结点作为“上下文”的向量。Pr(u|v)的定义为一个softmax函数,同word2vec一样,采用负采样的方法来加快训练。

Relational loss:

以前也有方法利用了结点的标签,但是没有利用边的标签信息。本文将边的标签信息利用起来。边e的向量由两端的结点u,v定义得到,定义为:

其中g函数是将结点向量映射为边向量的函数:Rd*Rd->Rd’ ,本文发现简单的连接操作效果最好。

将边的向量信息置入一个前馈神经网络,第k层隐藏层定义为:

其中,W(k)为第k层的权重矩阵,b(k)为第k层的偏置矩阵,h(0)= Φ(e)。

并且将预测出的边的标签与真实的边的标签计算二元交叉损失函数。真实的边的标签向量为y,神经网络预测的边的标签向量为yˆ。边的损失函数定义为:

本文算法的伪代码如下:

结果分析

表1和表2展示了五种方法在两个数据集上结点分类的表现。本文使用了5%,10%,20%的含有标签的结点。本文考虑到了在现实中,有标签关系的稀有性,所以本文只使用了10%的标签数据。可以观察到即使是很小比例的标签关系,结果也优于基础方法。在ArnetMiner数据集上表现得比AmazonReviews好的原因是,类似于ArnetMiner数据集的协作网络,关系的标签通常指明了结点的特征了,所以对于结点分类来说,高于AmazonReviewers是正常现象。

总结

本文的方法相比于以往的network embedding方法的优势在于,除了利用了网络的结构信息,同时也利用了网络中的边的标签信息。在真实世界的网络中证实了本文的方法通过捕捉结点之间的不同的关系,在结点分类任务中,网络中的结点表示能获得更好的效果。

论文笔记整理:黄焱晖,东南大学硕士,研究方向为知识图谱,自然语言处理。



OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 利用边缘标签的网络嵌入强化方法相关推荐

  1. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  2. 论文浅尝 | 重新实验评估知识图谱补全方法

    论文作者:Farahnaz Akrami,美国德州大学阿灵顿分校,博士生. 笔记整理:南京大学,张清恒,硕士生. 链接:https://arxiv.org/pdf/2003.08001.pdf 代码: ...

  3. 论文浅尝 | 利用指针生成网络的知识图谱自然语言生成

    论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答. 来源:Neurocomputing 382: 174-187 (2020) 链接:https://www.sciencedirect.co ...

  4. 论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

    论文笔记整理:王狄烽,南京大学硕士,研究方向为关系抽取.知识库补全. 链接:https://arxiv.org/pdf/1903.01306.pdf 发表会议:NAACL2019 动机 现有的利用远程 ...

  5. 论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

    本文转载自公众号:浙大KG. 论文题目:Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event ...

  6. 论文浅尝 | 利用知识-意识阅读器改进的不完整知识图谱问答方法

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答. 来源:ACL2019 链接:https://www.aclweb.org/anthology/P19-1417/ 本文提出了一种融合不完整 ...

  7. 论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

    本文转载自公众号:机器之心. 选自arXiv 作者:Yue Zhang.Jie Yang 机器之心编译 参与:路.王淑婷 近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一 ...

  8. 论文浅尝 | 利用常识知识图增强零样本和少样本立场检测

    笔记整理:张嘉芮,天津大学硕士 链接:https://aclanthology.org/2021.findings-acl.278.pd 动机 传统的数据驱动方法不适用于零样本和少样本的场景.对于人类 ...

  9. 论文浅尝 | 利用开放域触发器知识改进事件检测

    笔记整理 | 申时荣,东南大学博士 来源:ACL 2020 源码:https://github.com/shuaiwa16/ekd.git 摘要 事件检测(ED)是文本自动结构化处理的一项基本任务.由 ...

最新文章

  1. 一站式解决:隐马尔可夫模型(HMM)全过程推导及实现
  2. 太赞了!华为工程师总结的Linux笔记,提供下载
  3. 从安装Kafka服务到运行WordCount程序
  4. dns域名解析过程_域名解析怎样工作,Windows server 2008 R2如何安装DNS服务器
  5. 腾讯云CMQ消息队列在Windows环境下的使用
  6. cubic算法优化_TCP拥塞控制算法 — CUBIC的补丁(七) | 学步园
  7. poj 1384 完全背包
  8. 深度理解python中的元类
  9. 干货 | 彻底弄懂 HTTP 缓存机制及原理
  10. 教你怎样做好计划 将愿望慢慢实现
  11. Zebra命令模式分析
  12. Flutter 开发之 Dart语言 基础
  13. python error:‘mbcs‘ codec can‘t encode
  14. Codeforces Round #815 (Div. 2) A-D2
  15. IE6中常见兼容性问题及浏览器显示难题
  16. 有服务器风扇声音对胎儿有影响吗,怀孕期间长时间噪音对胎儿的影响有哪些
  17. 2021-CVPR-图像修复论文导读《TransFill: Reference-guided Image Inpainting by Merging Multiple Color and ~~~》
  18. 淘宝自动查券找券返利机器人实现方法分享
  19. Android获取系统的硬件信息、系统版本以及如何检测ROM类型
  20. 一、RISC-V SoC内核——取指 代码讲解

热门文章

  1. MySQL innodb每行数据长度的限制
  2. CPU是如何访问到内存的?
  3. 在git上push代码时缺少Change-Id
  4. android 4.2修改设置菜单的背景颜色
  5. IAudioEndpointVolume
  6. 利用insert、update和delete命令可以同时对多个表进行操作_学习笔记-操作系统(1)...
  7. LeetCode 2094. 找出 3 位偶数
  8. LeetCode 1935. 可以输入的最大单词数
  9. 天池 在线编程 有序队列
  10. LeetCode MySQL 1321. 餐馆营业额变化增长(over窗口函数)