最近的研究需要用到涉及到Network Embedding方面,而唐建15年的这篇论文还是非常的出名的,所以写一下。而且本文的二作三作都是我同学,大家都是大神啊。

LINE: Large-scale Information Network Embedding

ABSTRACT

ABSTRACT部分说了,这篇文章主要解决了大规模网络给embedding到低纬向量。而低纬向量能够更加有助于visualization, node classification, and link prediction。这个方法起了个名字叫LINE。而且这个方法能够处理各种各样的网络,有向无向图,带不带权等等。作者认为本文主要有如下两个亮点:

  • 优化的目标函数设计的比较好
  • 边采样方法能够克服(address)传统的随机梯度下降方法的缺陷,同时提高最后结果的效率和效果(efficiency and effectiveness)。

作者说,处理的效率非常的高,几个小时能处理millions of vertices
and billions of edges 的网络

INTRODUCTION

这篇文章的Introduction还挺长的,而且介绍的蛮有干货。
第一段跟Abstract部分差不多,简要介绍了Network的普遍性 ,和embedding的重要性。
第二段就进入了踩踩别人方法的阶段就列举出了3个已有的Graph Embedding方法:MDS , IsoMap,
Laplacian eigenmap 的局限性(话说找的方法还真是有点早啊,Laplacian eigenmap 那个方法01年的了)。说他们都是只能处理小规模网络,不能处理大规模网络。他们的时间复杂度至少是平方级别的。
当然,作者又说,最近有些研究可以处理大规模网络了,但是他们要么是间接方法不是特别为了网络设计的,要么是缺乏一个明确的目标函数去embedding。然后作者进入正题说:我们设计了一个 a new model with a carefully designed objective function that preserves properties of the graph and an efficient optimization technique should effectively find the embedding of millions of nodes. 看来目标函数和优化技术是这篇文章的主要亮点。
第三段作者说,他们的那个优化函数能同时呈现全局局部两种网络结构信息。

  • 局部信息是指,网络中的边信息,它是一个观测到的一阶相似度,之前很多方法就用了这个信息,如IsoMap,Laplacian eigenmap 。但是实际上在现实网络中,很多合法的边没有被观测到。所以一阶相似度并不能有效的表示全局信息。
  • 所以作者就提出了,二阶相似度,不是通过节点周围点的连接强度,而是通过与其他节点间共享邻居节点的结构来表示信息。直觉上,节点之间share的邻居节点越多,可以认为他们越相似。

所以一阶相似度,二阶相似度就这么被定义出来,二阶相似度能完善一下只用一阶相似度带来的稀疏性问题。
所以优化的目标就出来了,但是怎么去优化它也是一个挑战。
最近常用的方法就是梯度下降了,但是作者发现,直接用SGD会有一些问题。作者分析原因在于,如果网络带权的话,通常情况下,带权网络的权值是一个方差非常大的分布,而大的方差,导致了最后乘以梯度的时候,会导致梯度爆炸,而使结果不好。
所以作者说他们提出了一个边采样的方法。按照概率分布采样,而概率是通过边权大小计算出来的,然后将边当成一个二元的边来处理。有了这样的处理之后,优化的目标函数还是一样,但是就没有梯度爆炸的问题了。
作者用多个不同的现实网络去评估自己的方法:language networks, social
networks, and citation networks。而评测指标用的:word analogy, text classification, and node classification. 最终实验表明LINE算法效率也高,效果也好,就是NB。

之前列举的那些方法,经常就是用KNN来构建一个矩阵,然后来求矩阵的主要特征向量,因为要求特征向量,所以这样复杂度至少就为平方级别了。
而最近的一些工作,如graph factorization,它的问题在于

  • 并不是专门为了网络而设计的
  • 只有一阶相似度
  • 只能处理无向图

然后另外一个相关的工作是Deep Work,它是用随机游走的办法,主要应用了二阶相似度,但是主要的问题在于:

  • DeepWork用随机游走是一个DFS,而我们的方法是一个BFS,更能利用二阶相似度
  • 只能用在不带权的图中

PROBLEM DEFINITION

这一部分中,作者形式化的定义了,问题中的各种描述,诸如图的定义就不再赘述了。
一阶相似度定义为:两个节点之间边的权重值。
二阶相似度定义为一阶相似度向量(节点u的一阶相似度向量为pu=(wu,1,wu,2,...,wu,|v|)
)之间的相似度(应该是pu,pv
的cos相似度?作者具体也没说)。
然后定义了问题,就是既要用到一阶相似度又要用到二阶相似度的一个embedding算法。

LINE: LARGE-SCALE INFORMATION NETWORK EMBEDDING

作者说一个好的能用到现实数据中的network embedding方法应该具备如下特征:

  1. 用到两个相似度
  2. 能够处理大规模数据
  3. 能够处理各种各样的网络:带权/不带权,有向图/无向图

1.模型描述部分

一阶相似度

定义两个点i,j
之间的相似度为

p1(vi,vj)=11+exp(uiTui)


其中 ui,uj
i,j
两个节点的低纬向量表示
个人感觉就是一个sigmoid函数
然后是经验相似度

p^1(i,j)=wijW


W
是所有边权之和
所以两种节点之间相似度的分布就出来了,接下来求两个分布之间的距离——KL距离

O1=d(p^1(,),p1(,))


p^1
的定义带入其中化简得到

O1=(i,j)Ewijlogp1(vi,vj)

一阶相似度只能用在无向图上

二阶相似度

二阶相似度可以用在无向和有向图上

【读论文】唐建LINE那篇论文:LINE: Large-scale Information Network Embedding相关推荐

  1. 员外带你读论文:LINE: Large-scale Information Network Embedding

    本次要总结和分享的论文是 LINE: Large-scale Information Network Embedding,其链接 论文[1],所参考的实现代码 code[2],这篇论文某些细节读起来有 ...

  2. 史上最全AI论文集结:近千篇论文分门别类整理好

    搞AI,在不断精进自己代码的同时,更应该提升自己的阅读能力.需要不断地阅读大量的最新.最前沿的论文,也要深扎经典论文根基.因为阅读论文可以帮助你深入原理,理解AI更前沿的发展状态,掌握更前沿的技术热点 ...

  3. 现有论文和作者两个实体,论文实体的属性包括题目、期刊名称、年份、期刊号;作者实体的属性包括姓名、单位、地址;一篇论文可以有多个作者,且每一位作者写过多篇论文,在每一篇论文中有作者的顺序号。请完成以下操

    题目要求   现有论文和作者两个实体,论文实体的属性包括题目.期刊名称.年份.期刊号:作者实体的属性包括姓名.单位.地址:一篇论文可以有多个作者,且每一位作者写过多篇论文,在每一篇论文中有作者的顺序号 ...

  4. ECCV 2020 语义分割论文大盘点(38篇论文)

    作者:CV Daily | 编辑:Amusi Date:2020-09-25 来源:计算机视觉Daily微信公众号(系投稿) 原文:ECCV 2020 语义分割论文大盘点(38篇论文) 前言 距离EC ...

  5. ECCV 2020 实例分割+全景分割论文大盘点(14篇论文)

    前言 计算机视觉Daily 正式系列整理 ECCV 2020的大盘点工作,本文为第三篇:实例分割和全景分割方向. 前两篇详见: ECCV 2020 目标检测论文大盘点(49篇论文) ECCV 2020 ...

  6. 最新!CVPR 2021 医学图像分割论文大盘点(5篇论文)

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Amusi  |  来源:CVer 前言 昨天分享了MICCAI 2021上Transformer+医 ...

  7. 【论文阅读|深读】LINE: Large-scale Information Network Embedding

    目录 前言 ABSTRACT 1. INTRODUCTION 2. RELATED WORK 3. PROBLEM DEFINITION 4. LINE: LARGE-SCALE INFORMATIO ...

  8. 《Heterogeneous Information Network Embedding for Recommendation》 论文分析

    <Heterogeneous Information Network Embedding for Recommendation>论文解读 1.论文思路 为了嵌入HINs,设计了一种基于元路 ...

  9. AAAI 2022接收论文列表发布,1349篇论文都在这了!

    [导读]近日,人工智能顶会AAAI 2022放出了全部接收论文的列表,洋洋洒洒长达82页.你的文章中了吗? 获取方式: 关注深度学习与计算机视觉战队公众号,在消息对话框回复关键词:AAAI2022(建 ...

最新文章

  1. 通过电机编码器AB相输出确定电机转向
  2. Transport (VMDB) error -44: Message
  3. JZOJ 5275. 水管
  4. flutter scrollview_简单易上手的Flutter学习指南App,2020一起来玩转Flutter吧~
  5. C语言 指针和数组区别 - C语言零基础入门教程
  6. 使用cocoapods导入第三方类库后 头文件没有代码提示?
  7. sql truncate_如何在SQL Delete和SQL Truncate语句后使用数据库备份恢复数据
  8. UGUI之Toggle使用
  9. SwiftUI AsyncImage cancelled 无法加载图片
  10. java 使用 poi 操纵 excel2003 经验总结
  11. Python学习之not,and,or篇
  12. mysql开发认证 cmdev_学无止境:了解主流的DBA认证考试
  13. 第二届全球区块链峰会随记
  14. AUTOSAR-基本概念
  15. 数据库服务Amozon DynamoDB(入门分享)
  16. 问题 K: 蜗牛1534
  17. 当地特色旅游系统 计算机毕业设计 微信小程序开发
  18. Synthesys:语音合成和视频生成平台
  19. 【2D多目标跟踪】Quasi-Dense Similarity Learning for Multiple Object Tracking阅读笔记
  20. 《脱颖而出——成功网店经营之道》一2.6 连横:返利模式的应用及分销

热门文章

  1. 光伏并网柜综合监测方案
  2. SIAMCAT的R实现
  3. 优秀课件笔记旅游资源和旅游地评价 Evaluation of Tourism Resources 4
  4. python123第k序元素查找_二级个人笔记
  5. 零基础想玩转3D建模,这14个建模小技巧你必须知道!
  6. pickle —— Python 对象序列化(python=3.8)
  7. Optimizing Subgraph Queries by Combining Binary and Worst-Case Optimal Joins
  8. AD使用总结--2__PCB中各层作用详解
  9. BUUCTF_pyre
  10. 瑞昱RTL8710对标乐鑫ESP8266 谁将成为物联网首选