01

图神经网络是什么

过去几年,神经网络在机器学习领域大行其道。比如说卷积神经网络(CNN)在图像识别领域的成功以及循环神经网络(LSTM)在文本识别领域的成功。对于图像来说,计算机将其量化为多维矩阵;对于文本来说,通过词嵌入(word embedding)的方法也可以将文档句子量化为规则的矩阵表示。以神经网络为代表的深度学习技术在这些规范化的数据上应用的比较成功。但是现实生活中还存在很多不规则的以图的形式存在的数据。比如说社交关系图谱中人与人之间的连接关系,又比如说电子商务系统中的人与货物的关系等等,这些数据结构像下面这样:

演员-电影 关系位于neo4j的图数据

图神经网络(Graph Neural Network, GNN)是指神经网络在图上应用的模型的统称,图神经网络有五大类别:分别是:图卷积网络(Graph Convolution Networks,GCN)、 图注意力网络(Graph Attention Networks)、图自编码器( Graph Autoencoders)、图生成网络( Graph Generative Networks) 和图时空网络(Graph Spatial-temporal Networks)。本文只重点介绍最经典和最有意义的基础模型GCN。

清华大学孙茂松教授组在 arXiv 发布了论文Graph Neural Networks: A Review of Methods and Applications,作者对现有的 GNN 模型做了详尽且全面的综述。

02

文本如何构建图

我们要构建一个具有定义好n个节点,m条边的图。

以经典的分类任务为例。我抽屉里有5本不同的机器学习书,里面一共有a个章节,同时所有书里面一共有b种不同的单词(不是单词个数,是所有的单词种类)。然后我们就可以给a个章节和b个单词标记唯一的id,一共n=a+b个节点,这是我们图的节点。

边的创建

我们有两种节点,章节和单词。然后边的构建则来源于章节-单词 关系和 单词-单词关系。对于边章节-单词 来说,边的权重用的是单词在这个章节的TF-IDF算法,可以较好地表示这个单词和这个章节的关系。这个算法比直接用单词频率效果要好[1]。单词-单词 关系的边的权重则依赖于单词的共现关系。我们可以用固定宽度的滑窗对5本书的内容进行平滑,类似于word2vector的训练取样本过程,以此计算两个单词的关系。具体的算法则有PMI算法实现。

point-wise mutual information(PMI)是一个很流行的计算两个单词关系的算法。我们可以用它来计算两个单词节点的权重。节点 i 和节点 j 的权重计算公式如下:

PMI(i, j)的计算方式如下:

#W(i) 表示所有的滑窗中包含单词节点 i 的个数。

#W(i; j) 表示所有的滑窗中同时包含单词节点 i 和单词节点 j 的个数。

#W 是总的滑窗次数

PMI值为正则说明两个单词语义高度相关,为负则说明相关性不高。因此最后的图构造过程中只保留了具有正值的单词节点对组成的边。

图的节点和边确定了,接下来介绍如何应用图卷积神经网络进行一些学习应用。

2019年AAAI有一篇论文使用了此方法进行章节分类。题目“Graph Convolutional Networks for Text Classification”

03

图卷积神经网络

图卷积神经网络(Graph Convolutional Network, GCN)是一类采用图卷积的神经网络,发展到现在已经有基于最简单的图卷积改进的无数版本,在图网络领域的地位正如同卷积操作在图像处理里的地位。

什么是卷积

离散卷积的本质是一种加权求和。

https://www.zhihu.com/question/22298352

卷积过程示意图

CNN中卷积的本质就是利用共享参数的过滤器 kernel,通过计算中心像素点及相邻像素点的加权和来构成feature map实现空间特征的提取,加权系数就是卷积核的权重系数。卷积核的权重系数通过BP算法得到迭代优化。卷积核的参数正是通过优化才能实现特征提取的作用,GCN的理论很重要一点就是引入可以优化的卷积参数来实现对图结构数据特征的获取。

社交网络中图结构

图卷积的目的类似,寄希望学习到一种节点表示,该节点表示依赖于每个节点及其周边相邻的节点。然后该节点表示就可以输出用作分类任务了,就是我们常说的节点分类。

图的定义

对于图  ,  为节点的集合,  为边的集合,对于每个节点  , 均有其特征  ,可以用矩阵  表示。其中  表示节点数,  表示每个节点的特征数,也可以说是特征向量的维度。

那么有什么东西来度量节点的邻居节点这个关系呢?拉普拉斯矩阵。举个简单的例子,对于下图中的左图而言,它的度矩阵  ,邻接矩阵  和拉普拉斯矩阵  分别如下图所示,度矩阵(degree matrix)  只有对角线上有值,为对应节点的度,其余为0;邻接矩阵只有在有边连接的两个节点之间为1,其余地方为0;拉普拉斯矩阵  为  。这是比较简单的拉普拉斯矩阵。

图结构数据的各种表示

以下是重点


图卷积网络(GCN)第一层的传播公式如下:

ρ是激活函数,比如ReLU。

我们暂时理解等同于邻接矩阵A,代表图的拓扑结构,维度N*N,N表示节点个数;

X是第一层输入的特征矩阵,维度N*MM表示每个节点的特征向量维度;

Wo是权重参数矩阵,维度M*KK代表转给下一层的向量维度。

因此第一层输出L1的向量维度就是 N*K

在上面介绍的文本分类任务中,

X是原始输入,我们用对角线为1的单位矩阵来表示,维度N*N;可以理解为是对节点的one-hot表示。Wo采用的参数是N*K随机初始化(K=200),。

XWo 的维度就是N*200,相当于对每个输入节点做了embedding,维度为200

A * XWo 这个矩阵乘法怎么理解?这才是理解图卷积的关键。复习一下矩阵乘法公式,发现新生成的L1这个N*K矩阵的每一个节点的K个维度,都是对应该节点的相邻节点邻接权重乘以相邻节点在这个维度上的值的累加和。从而实现了通过一次卷积,GCN可以让每个节点都拥有其邻居节点的信息。

(不准确的讲,图的邻接矩阵乘以图节点embedding,就相当于是做一次卷积)

下面我画了一个示意图

结论:新生成的0号节点的向量全部由相邻的1号节点和3号节点的向量等加权求和得到。从而实现了周边节点卷积(加权求和)得到新的自身的目的。

(邻接矩阵A第一行0 1 0 1表示0号节点和1,3号节点相连,和2号不连接)

如果要让节点拥有周边更广泛的节点信息,可以多次进行卷积。

上面的如果用邻接矩阵替代的话有两个缺点。

  • 没有考虑节点自身对自己的影响,因为邻接矩阵对角线为0;

  • 邻接矩阵没有被规范化,这在提取图特征时可能存在问题,比如邻居节点多的节点倾向于有更大的影响力。

因此更常用的公式是:

又称为规范化对称邻接矩阵(normalized symmetric adjacency matrix)。关于这个公式理解,可以参考[1]

04

pytorch代码实现

有的人看代码更能理解。下面介绍了两层图卷积网络的模型定义:

class gcn(nn.Module):    def __init__(self, X_size, A_hat, args, bias=True): # X_size = num features        super(gcn, self).__init__()        self.A_hat = torch.tensor(A_hat, requires_grad=False).float()        self.weight = nn.parameter.Parameter(torch.FloatTensor(X_size, args.hidden_size_1))        var = 2./(self.weight.size(1)+self.weight.size(0))        self.weight.data.normal_(0,var)        self.weight2 = nn.parameter.Parameter(torch.FloatTensor(args.hidden_size_1, args.hidden_size_2))        var2 = 2./(self.weight2.size(1)+self.weight2.size(0))        self.weight2.data.normal_(0,var2)        if bias:            self.bias = nn.parameter.Parameter(torch.FloatTensor(args.hidden_size_1))            self.bias.data.normal_(0,var)            self.bias2 = nn.parameter.Parameter(torch.FloatTensor(args.hidden_size_2))            self.bias2.data.normal_(0,var2)        else:            self.register_parameter("bias", None)        self.fc1 = nn.Linear(args.hidden_size_2, args.num_classes)
    def forward(self, X): ### 2-layer GCN architecture        X = torch.mm(X, self.weight)        if self.bias is not None:            X = (X + self.bias)        X = F.relu(torch.mm(self.A_hat, X))        X = torch.mm(X, self.weight2)        if self.bias2 is not None:            X = (X + self.bias2)        X = F.relu(torch.mm(self.A_hat, X))        return self.fc1(X)# 第一层权重维度 args.hidden_size_1取200,# 第二层权重维度args.hidden_size_2取20;# args.num_classes=5

最开始介绍的5本书的章节和单词构成的图,一共有100个章节节点和5000个单词节点。每个章节节点的标签是属于哪本书。一共五类。希望通过对其中50个章节的标签进行标记和训练,让网络学会剩下50个章节属于哪本书。属于半监督学习

05

图卷积神经网络最新进展

本文的写作基础是来源于AAAI2019的一篇论文Graph Convolutional Networks for Text Classification,用GCN做文本分类。在AAAI2020上,清华大学科大讯飞的学者提出张量卷积神经网络在文本分类的应用Tensor Graph Convolutional Networks for Text Classification,通过利用文本构成多种图结构,进一步提高文本分类的性能。

在崭新的的2020年,图神经网络GNN又有哪些崭新的发展可能呢?分享一个AAAI2020详细讲解GNN的ppt,很好的回答了这些问题。

链接

http://cse.msu.edu/~mayao4/tutorials/aaai2020/

【GCN】从文本分类来看图卷积神经网络相关推荐

  1. 从文本分类来看图卷积神经网络

        " 图神经网络火了这么久,是时候掌握它了." 本文包括以下内容,阅读时间10min 图神经网络是什么意思 文本如何构建图 图卷积神经网络 源代码实现 图卷积神经网络最新进展 ...

  2. NLP自然语言处理——文本分类(CNN卷积神经网络)

    文本分类是NLP自然语言处理中一项基本功能,它在新闻分类.主题分类.问答匹配.意图识别.情感分类.推断等领域都有涉及. 学习应用文本分类任务的难点有被识别语言的复杂性和评测函数的设计等,本篇将介绍一个 ...

  3. GCN图卷积神经网络综述

    文章目录 一.GNN简史 二.GCN的常用方法及分类 2.1 基于频域的方法 2.2 基于空间域的方法 2.3 图池化模块 三. GCN常用的基准数据集 四.GCN的主要应用 4.1 计算机视觉 4. ...

  4. 图卷积神经网络4-空域卷积:空域卷积局限性分析和过平滑解决方案

    知乎主页https://www.zhihu.com/people/shuang-shou-cha-dai-53https://www.zhihu.com/people/shuang-shou-cha- ...

  5. 图卷积神经网络1-谱域图卷积:拉普拉斯变换到谱域图卷积

    知乎主页 备注:本篇博客摘自某培训机构上的图神经网络讲解的视频内容,该视频关于图神经网络入门讲解.经典算法的引入和优缺点的介绍比较详细,逻辑主线也比较清晰.因此记录分享下. 目录: 图卷积近年发展 图 ...

  6. gcn 图卷积神经网络_复制一文读懂图卷积GCN

    首发于郁蓁的机器学习笔记 写文章 一文读懂图卷积GCN 苘郁蓁 ​ 阿里巴巴 算法工程师 ​关注她 唯物链丶.小小将等 480 人赞同了该文章本文的内容包括图卷积的基础知识以及相关辅助理解的知识点,希 ...

  7. GCN图卷积神经网络总结笔记

    参考文章:一文读懂图卷积GCN - 知乎 Graph Neural Network(GNN) 图神经网络(Graph Neural Network, GNN)是指神经网络在图上应用的模型的统称.根据采 ...

  8. 图卷积神经网络(GCN)入门

    GCN是从CNN来的 CNN成功在欧式数据上:图像,文本,音频,视频 图像分类,对象检测,机器翻译 CNN基本能力:能学到一些局部的.稳定的结构,通过局部化的卷积核,再通过层级堆叠,将这些局部的结构变 ...

  9. 图卷积神经网络GCN的一些理解以及DGL代码实例的一些讲解

    文章目录 前言 GCN 传播公式 例1 例2 DGL中的GCN实例 dgl.DGLGraph.update_all 参考 前言 近些年图神经网络十分火热,因为图数据结构其实在我们的现实生活中更常见,例 ...

最新文章

  1. kindeditor 批量上传 路径_FtpClient 实现文件上传
  2. SAP PP 中关于计划订单和生产订单的日期计算
  3. IOS开发基础之团购案例17-xib和UITableView两种方式实现
  4. 2021“MINIEYE杯”中国大学生算法设计超级联赛(10)Pty loves string(Border+二维数点)
  5. 自增主键与UUID的优缺点
  6. 学习笔记-AngularJs(四)
  7. c# 整数类型转byte_C#中数据类型的整数类型
  8. SpringMVC配置视图的直接映射view-controller命名空间
  9. LeetCode 734. 句子相似性(哈希)
  10. c语言程序输出时有没有分号,问什么C程序里总是提示缺少分号;,而明明有分号?...
  11. Linux下架设邮件服务器全攻略(二)
  12. 解决pytouch导入模型报错:AttributeError: Can‘t get attribute ‘XXX‘ on <module ‘__main__‘ from XXX>
  13. 【OOM】GC overhead limit exceeded
  14. 百度App网络深度优化系列《一》DNS优化
  15. 学习笔记-AngularJs(三)
  16. 最大乘积java_在Java中查找负数的最大乘积
  17. html字幕精灵图标,视频加字幕精灵
  18. web前端--TS基础理论及原理
  19. 勇敢码农,不怕困难!阿里内部不外传秘籍50万字Java面试手册奉上
  20. mysql中db的名词解释_数据库常用名词解释大全

热门文章

  1. HDU 4393 Throw nails [水题]
  2. WCF与AJAX编程开发实践(1):AJAX基础概念和纯AJAX示例
  3. 后端开发如何设计数据库系列文章(一)设计传统系统表结构(Java开发)
  4. Java设计模式:命令模式
  5. SpringCloud Sentinel 使用restTemplate的两种配置介绍
  6. mysql存储过程实验几轮_想问下数据库中有关存储过程的实验,求大神!
  7. Dubbo 注册中心 之 Zookeeper
  8. 7 学大厂,拓展基础组件封装思路 BAT?TMD
  9. Java生产环境下性能监控与调优详解 第8章 JVM字节码与Java代码层调优
  10. Go入门之——GOROOT、GOPATH、GOBIN 、Project目录