论文阅读|node2vec: Scalable Feature Learning for Networks
论文阅读|node2vec: Scalable Feature Learning for Networks
文章目录
- 论文阅读|node2vec: Scalable Feature Learning for Networks
- Abstract
- Introduction
- Feature Learning Framework
- Classic search strategies
- node2vec
- 参考资料
Abstract
Node2vec:一种用于学习网络中节点的连续特征表示的算法框架。学习节点到低维特征空间的映射,以最大化保留节点网络领域概念,并设计了一个baised(偏向)随机游走过程,有效探索不同的领域。
Introduction
任何有监督的机器学习算法都需要一组信息丰富的、有辨别力的和独立的特征。 在网络的预测问题中,这意味着必须为节点和边构建特征向量表示。 非典型解决方案涉及基于专业知识的手工工程特定领域特征。 即使不考虑特征工程所需的繁琐工作,这些特征通常是为特定任务设计的,并且不会在不同的预测任务中泛化。另一种方法是通过解决优化问题来学习特征表示。 特征学习的挑战在于定义目标函数,这涉及平衡计算效率和预测准确性的权衡。
node2vec 可以学习根据节点的网络角色或它们所属的社区组织节点的表示。 通过开发一系列有偏随机游走来实现这一点,它可以有效地探索给定节点的不同邻域。
贡献如下:
- 提出了 node2vec,这是一种用于网络中特征学习的高效可扩展算法,可使用 SGD 有效优化新的网络感知、邻域保留目标。
- 算法的灵活性,适用于等价网络?
- 扩展了node2vec和其他基于邻域保留目标的特征学习方法,从节点到节点对,用于基于边的预测任务。
- 应用于现实网络中进行多标签分类和链路预测
Feature Learning Framework
f:V→Rdf:V→R^df:V→Rd,d为特征维度,f为大小为∣V∣|V|∣V∣的矩阵,对于每个源节点 u∈Vu ∈ Vu∈V ,我们将 NS(u)⊂VN_S (u) ⊂ VNS(u)⊂V 定义为通过邻域采样策略 S 生成的节点 u 的网络邻域。
优化以下目标函数:
maxf∑u∈VlogPr(NS(u)∣f(u))max_f\sum_{u∈V}logPr(N_S(u)|f(u)) maxfu∈V∑logPr(NS(u)∣f(u))
为优化问题易于处理,论文中做出两个标准假设:
有条件的独立。 我们通过假设观察邻域节点的可能性独立于给定源的特征表示观察任何其他邻域节点来分解似然:
Pr(NS(u)∣f(u))=∏ni∈NS(u)Pr(ni∣f(u))Pr(N_S(u)|f(u))=\prod_{n_i∈N_S(u)}Pr(n_i|f(u)) Pr(NS(u)∣f(u))=ni∈NS(u)∏Pr(ni∣f(u))特征空间中的对称性。 源节点和邻域节点在特征空间中彼此具有对称效应。 对条件似然进行建模,每个源-邻域节点对作为由其特征的点积参数化的softmax单元:
Pr(ni∣f(u))=exp(f(ni)⋅f(u))∑v∈exp(f(v)⋅f(u)Pr(n_i|f(u))=\frac{exp(f(n_i)·f(u))}{\sum_{v∈exp(f(v)·f(u)}} Pr(ni∣f(u))=∑v∈exp(f(v)⋅f(u)exp(f(ni)⋅f(u))
通过上述假设,目标函数可简化为
maxf∑u∈V[−logZu+∑ni∈NS(u)f(ni)⋅f(u)]max_f \quad \sum_{u∈V}\bigg[ -logZ_u + \sum_{n_i∈N_S(u)}f(n_i)·f(u) \bigg] maxfu∈V∑[−logZu+ni∈NS(u)∑f(ni)⋅f(u)]
Classic search strategies
论文将源节点的邻域采样问题视为一种局部搜索形式。对于上图中的源结点u,我们的目标是生成(采样)其邻域NS(u)N_S(u)NS(u)。为了采样策略的公平,将邻域NS(u)N_S(u)NS(u)的大小限制为k个节点,然后为单个节点u采样多个集。通常,生成k个节点的邻域NSN_SNS有两种极端采样策略:
- Breadth-first Samping(BFS)
- Depth-first Samping(DFS)
BFS体现了网络结构的微观等效性;
DFS体现了网络结构的宏观等效性;
node2vec
Random Walks(随机游走)
通常,给定一个源结点u,游走长度固定为lll,cic_ici表示游走的第i个节点,令初始节点为c0=uc_0=uc0=u,节点cic_ici由以下分布生成:
P(ci=x∣ci−1=v)={πvxZ,if(v,x)∈E0,otherwiseP(c_i=x|c_{i-1}=v)=\begin{cases} \frac{π_{vx}}{Z},if(v,x)∈E \\ 0, otherwise \end{cases} P(ci=x∣ci−1=v)={Zπvx,if(v,x)∈E0,otherwise
其中πvxπ_{vx}πvx是节点v和x之间的非归一化转移概率,Z是归一化常数。
Search bias α(有偏搜索α)
带有两个参数p和q的二阶随机游走,考虑一个游走,它刚刚遍历了边(t,v),现在位于图中节点v。步行现在需要决定下一步,此时评估从v开始的边**(v,x)上的转移概率πvxπ_{vx}πvx。将非归一化转移概率设置为πvx=αpq(t,x)⋅wvxπ_{vx}=αpq(t,x)·w_{vx}πvx=αpq(t,x)⋅wvx,其中
αpq(t,x)={1p,ifdtx=01,ifdtx=11q,ifdtx=2α_{pq}(t,x)=\begin{cases} \frac{1}{p}, \quad if \quad d_{tx}=0 \\ 1, \quad if \quad d_{tx} = 1\\ \frac{1}{q}, \quad if \quad d_{tx} = 2 \end{cases} αpq(t,x)=⎩⎪⎨⎪⎧p1,ifdtx=01,ifdtx=1q1,ifdtx=2
dtxd_{tx}dtx表示节点t和x之间的最短路径距离。且dtxd_{tx}dtx必须是{0,1,2}**之一。参数p和q控制步行探索和离开起始节点u的邻域的速度。
Return parameter, p:参数p控制在步行中立即重新访问节点的可能性。将其设置为较高的值>max(q,1)>max(q,1)>max(q,1)可确保我们在接下来的两个步骤中不太可能对已经访问过的节点进行采样(除非步行中的下一个节点没有其他邻居)。该策略鼓励适度探索并避免采样中的2跳冗余。另一方面,如果p较低<min(q,1)<min(q,1)<min(q,1),它将导致使步行回溯一步,这将使步行保持“本地”靠近起始节点u。
In-Out parameter,q:(输入输出参数q)若q>1q>1q>1,随机游走更偏向于靠近节点t的节点(BFS);若q<1q<1q<1,随机游走更偏向距离节点更远的节点(DFS)。注意,如果将π,v,xπ,v,xπ,v,x设置为游走t中前一个节点的函数,随机游走是二阶马尔科夫
。
Benefits of random walks:与纯DFS/BFS相比,随机游走在空间和时间要求方面具有计算效率。
node2vec Algorithms
DeepWalk相当于node2vec中p和q均取1的情况。
实验中设置(p=1,q=2 / p = 1, q = 0.5)。
数据集:Blogcatalog、PPI、Wikipedia
对比算法:Spectral Clustering、DeepWalk、LINE
评估指标:micro-F1
链路预测···
参考资料
论文:node2vec: Scalable Feature Learning for Networks
【Graph Embedding】node2vec:算法原理,实现和应用
最大似然函数及其求解
详解Node2vec以及优缺点
[work] 一阶 二阶马尔可夫
论文阅读|node2vec: Scalable Feature Learning for Networks相关推荐
- 【论文阅读|深读】node2vec: Scalable Feature Learning for Networks
目录 前言 ABSTRACT 1. INTRODUCTION 2. RELATED WORK 3. FEATURE LEARNING FRAMEWORK 特征学习框架 3.1 Classic sear ...
- node2vec: Scalable Feature Learning for networks
Node2vec历史意义: 是目前引用量比较高的文章 与DeepWalk文章一样,属于早期网络表征学习的代表性工作,后期作为经典baseline 启发了大量基于random walk来做网络表征学习的 ...
- 论文阅读笔记:SCAN: Learning to Classify Images without Labels
论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要 简介和相关工作 方法 表征学习 语义聚类损失 2.3 通过自标记进行微调 3 实验 ...
- Zero-shot Learning零样本学习 论文阅读(一)——Learning to detect unseen object classes by between-class attribute
Zero-shot Learning零样本学习 论文阅读(一)--Learning to detect unseen object classes by between-class attribute ...
- 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
- 【论文阅读笔记】Pyramid Scene Paring Networks
[论文阅读笔记]Pyramid Scene Paring Networks 阅读第一遍(2021.1.18) 提出的问题:当前基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景类别线索 提出:金 ...
- 【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测,多模态融合
本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文. 论文标题:Multimodal Fusion with Co-Attention Networks for Fake Ne ...
- 【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态,谣言检测,注意力机制
本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:MFAN: Multi-modal Feature-enhanced Attention Networks for ...
- 深度学习-视频行为识别:论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos)
这里写目录标题 视频的行为识别 前言 背景 内容组成 主要贡献 算法介绍 网络结构 双流(two stream)网络结构 空间流卷积网络(Spatial stream ConvNet) 时间流卷积网络 ...
最新文章
- 什么时候是创业最佳时机?7个最佳的励志创业时机GET了吗
- open-capacity-platform 项目启动
- Session 的钝化与活化
- Spring Cloud与Duddo比较(非原创)
- Java实现统计某字符串在另一个字符串中出现的次数
- Web后端学习笔记 Flask(9)cookie and session
- 数据结构预算法(六) 数组和矩阵(1)
- 2021年中国乙烯基一次性手套市场趋势报告、技术动态创新及2027年市场预测
- vs2019配置opencv4.3
- 【记录】前端代码规范 规范
- 信息安全工程师教程知识点总结(第二版)
- 网联下发42号文督促生产测试 银行代扣通道都将关闭 协议支付
- 删掉的HTML文件怎样恢复,如何恢复删掉的文件_分享四种方法恢复已被删掉的文件-系统城...
- 用计算机怎么算加权标准差,Tableau,如何计算加权标准差
- android无法格式化sd卡,当Android无法格式化SD卡时该怎么做 | MOS86
- 多策略融合算术优化算法
- 逆序对 矩阵 好事成双 金牌银牌铜牌 发工资
- 百度提交死链的官方标准格式
- 笔录 Flutter(二)Image的属性、使用、圆角、圆形
- 在windows 10中新建文本文档,只有txt文件双击打不开,但右键点编辑可以打开。
热门文章
- Swoole的功能及简介
- 多文件批量压缩下载,单文件夹压缩下载
- java8 toMap(key重复如何解决)
- oracle 韩国整形医院,韩国整形医院前十名公布:都是本地人去的整形医院!
- [Android]当文字过长Button往下移解决方法
- MATLAB mux demux
- excel服务器数据同步修改,excel表格数据同步修改-关于excel不同表格(不同工作簿)之间数据同步修改......
- idea xml右键没有Diagrams
- memoQ电子书 | 聚焦视频翻译技术
- 《C++捷径教程》读书笔记--Chapter 14--继承(完结)