DGL库是由纽约大学和亚马逊联手推出的图神经网络框架,支持对异构图的处理,开源相关异构图神经网络的代码,在GCMC、RGCN等业内知名的模型实现上也取得了很好的效果。

1 DGL库

1.1 DGL库的实现与性能

实现GNN并不容易,因为它需要在不规则数据上实现较高的GPU吞吐量。

1.1.1 DGL库简介

DGL库的逻辑层使用了顶点域的处理方式,使代码更容易理解。同时,又在底层的内存和运行效率方面做了大量的工作,使得框架可以发挥出更好的性能。

1.1.2 DGL库特点

GCMC:DGL的内存优化支持在一个GPU上对MovieLens10M数据集进行训练(原实现需要从CPU中动态加载数据),从而将原本需要24小时的训练时间缩短到1个多小时。

RGCN:使用全新的异构图接口重新实现了RGCN。减少了内存开销。

HAN:提供的灵活接口可以将一个异构图通过元路径转变成同构图。

Metapath2vec:新的元路径采样实现比原实现快2倍。

1.1.3 分子化学的模型库DGL-Chem

该分子库提供包括分子性质预测和分子结构生成等预训练模型,以及训练知识图谱嵌入专用包DGL-KE。其中DGL-KE的性能更是出色。

在单GPU上,DGL-KE能在7分钟内使用经典的TransE模型训练出FB15K的图嵌入。而GraphVite(v0.1.0)在4个GPU上运算需要14分钟。

DGL-KE的首个版本发布了TransE、CompEx和Distmut模型,支持CPU训练、GPU训练、CPU和GPU混合训练,以及单机多进程训练。

1.2 安装DGL库

1.2.1 查看本地CUDA版本

CMD中输入

nvcc --version

1.2.2 查看版本

CUDA对应的DGL版本查询(64位)https://conda.anaconda.org/dglteam/linux-64

1.2.3 安装版本

conda install -c dglteam dgl-cuda11.3

1.2.4  卸载DGL

若已经安装了不需要的DGL版本,比如0.7.1想替换为0.4.3版本,则要删除现有版本:

默认删除当前DGL:conda uninstall -c dglteam dgl-cuda10.2

(cuda10.2可根据自己的环境调整)

指定删除版本:conda uninstall -c dglteam dgl-cuda10.2==0.5.0
(cuda10.2==0.5.0可根据自己的环境调整,使用 conda list 可以查看使用的当前版本)

1.3 DGL库中的数据集

1.3.1  Sst(Stanford sentiment treebank,斯坦福情感树库)

每个样本都是—个树结构的句子,叶顶点表示单词;每个顶点还具有情感注释,共分为5类(非常消极、消极、中立、积极、非常积极)

1.3.2 KarateCub

数据集中只有一个图,图中的顶点描述社交网络中的用户是否是一家空手道俱乐部中的成员。

1.3.3 CationGraph

顶点表示作者,边表示引用关系。

1.3.4 CORA

顶点表示作者,边表示引用关系。

1.3.5 CORAFUll

CORA数据集的扩展,顶点表示论文,边表示论文间的引用关系。

1.3.6 AmazonCoBuy

顶点表示商品,边表示经常一起购买的两种商,。顶点特征表示产品的评论,顶点的类别标签表示产品的类别。

3.7 Coauthor

顶点表示作者,边表示共同撰写过论文的关系。顶点特征表示作者论文中的关键词,顶点类别标签表示作者的研究领域。

3.8 MiniGCDalaset(即mini graph classification dataset,小型图分类数据集)

包含8种不同类型的图形,包括循环图、星形图、车轮图、棒棒糖图、超立方体图、网格图、集团图和圆形梯形图。

3.9 TUDataset

图形分类中的图形内核数据集。

3.10 GINDataset(即graphLsomorphism network dataset,图同构网络数据集)

图内核数据集的紧凑子集。数据集包含流行的图形内核数据集的紧凑格式,包括4个生物信息学数据集(MUTAG、NCH、PROTEINS、PTC)和5个社交网络数据集(COLAB、IMDBBNARY、MDBMULT、REDDITBINARY,REDDITMULT5K)。

3.11 PPIDataset(即protein-protein interaction dataset,蛋白质-蛋白质相互作用数据集)

数据集包含24个图,每个图的平均顶点数为2372,每个顶点具有50个要素和121个标签。

3.12 QM7b

由7211个分子组成,所有的分子可以回归到14个分类目标。顶点表示原子,边表示键。

1.4 DGL库中数据集的加载

在使用时,可以通过dg.data库中的数据集类直接进行实例化。
实例化的参数要根据每个数据集类的构造函数的定义进行配置。
代码如下:

# 该代码的作用是创建并加载一个同构图数据集。该代码运行后,会自动从网络上下载指定的数据集
# 并解压缩,然后载入到内存,并返回数据集对象dataset。该数据集类与PyTorch的Dataset类兼容。
dataset=GINDataset('MUTAG',self-loop=True) #数据集为MUTAG,使用自环图

1.4.1 数据集加载的Tip

dgldata库中的数据集类规划得并不是太好,有的类直接裸露在数据下面,有的类则被额外封装了一层。

例如,CoraDataset类就被封装在citation_graph.py文件中,载入时需要编写如下代码:

from dgl.data import citation-graph
data = citation_graph.corapataset()
该代码在执行时会读取指定的数据集,并生成邻接矩阵,然后调用NetWorkx模块根据该邻接矩阵生成图以及训练数据集、测试数据集。

因此,在使用DGL的数据集时,还需要在dgl/data路径下单独查找,以库中实际的代码为准。

1.5 DGL库中的图(DGLGraph)

DGLGraph类封装一个特有的图结构,可以理解为DGL库的核心,DGL库中的大部分图神经网络是基于DGLGraph类实现的。

1.6 DGL库中的内联函数

DGL库提供了大量的内联(buit-in)函数,这些函数主要用于对边和顶点进行运算处理,它们的效率要比普通的图处理函数高很多。

DGL库中的内联函数都放在dgl.function模块下。在使用时,要配合DGLGraph图的消息传播机制进行运算。

消息传播机制属于DGL库的底层功能,常会在构建图神经网络模型中使用。

如果只使用DGL库中封装好的图神经网络模型,那么无须深入了解。

2 PYG库

PyG库是基于PyTorch构建的几何深度学习扩展库,可以利用专门的CUDA内核实现高性能。

在简单的消息传递APl之后,它将大多数近期提出的卷积层和池化层捆绑成一个统一的框架,支持CPU和GPU计算,并遵循不变的数据流范式,这种范式可以随着时间的推移动态改变图结构。

3 NetWorkx库

NetWorkk是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便地执行分析复杂网络数据、仿真建模等任务。

利用NetWorkx可以以标准化和非标准化数据格式存储网络,生成多种随机网络和经典网络,分析网络结构,建立网络模型,设计新的网络算法,进行网络绘制等。

3.1 NetWorkx库的安装和使用

由于NetWorkx库默认集成在Anaconda软件中,因此,如果已经安装了Anaconda,那么可以直接使用NetWorkx库。

3.2 查询NetWorkx库的版本

import networkx
print(networkx.__version__)
# 2.7.1

3.3 NetWorkx库支持的图结构

  1. Graph:无多重边无向图。
  2. DiGraph:无多重边有向图。
  3. MultiGraph:有多重边无向图。
  4. MuliDiGraph:有多重边有向图。

3.4 NetWorkx库中的图数据对象

NetWorkx库中的图数据对象可以通过nx.generate_graphml接口转化成graphm/文件格式的字符串。该字符串是以生成器形式存储的,每一个子图为生成器中的一个元素。

import networkx as nxG = nx.path_graph(4)
print(list(nx.generate_graphml(G)))

在该代码执行后,会输出graphml文件格式的图数据对象,具体如下:

['<graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">', '  <graph edgedefault="undirected">', '    <node id="0" />', '    <node id="1" />', '    <node id="2" />', '    <node id="3" />', '    <edge source="0" target="1" />', '    <edge source="1" target="2" />', '    <edge source="2" target="3" />', '  </graph>', '</graphml>']

通过graphml文件格式的描述,实现图数据的文本形式显示,可以通过直接修改graphml文件的内容完成对图数据的维护,比使用接口函数的方式更直接,也更灵活。

3.4.1 graphml文件的持久化

使用nx_writegraphm接口可输出内存中的图对象,待编辑好之后,使用nx.read_graphml接口将文件加载到内存中。

3.4.2 graphml文件的打开方式

graphml的文件使用的是xml格式,可以用yEd Graph Edtor软件打开

【Pytorch神经网络理论篇】 27 图神经网络DGL库:简介+安装+卸载+数据集+PYG库+NetWorkx库相关推荐

  1. 【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

    注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制 所谓Attention机制,便是聚焦于局部信息的机制,比 ...

  2. 【Pytorch神经网络理论篇】 24 神经网络中散度的应用:F散度+f-GAN的实现+互信息神经估计+GAN模型训练技巧

    1 散度在无监督学习中的应用 在神经网络的损失计算中,最大化和最小化两个数据分布间散度的方法,已经成为无监督模型中有效的训练方法之一. 在无监督模型训练中,不但可以使用K散度JS散度,而且可以使用其他 ...

  3. 【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN:基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

    图神经网络(Graph Neural Network,GNN)是一类能够从图结构数据中学习特征规律的神经网络,是解决图结构数据(非欧氏空间数据)机器学习问题的最重要的技术. 1 图神经网络的基础知识 ...

  4. 【Pytorch神经网络理论篇】 29 图卷积模型的缺陷+弥补方案

    图卷积模型在每个全连接网络层的结果中加入了样本间的特征计算.其述质是依赖深度学特征与缺陷. 1.1 全连接网络的特征与缺陷 多层全连接神经网络被称为万能的拟合神经网络.先在单个网络层中用多个神经元节点 ...

  5. 【Pytorch神经网络理论篇】 28 DGLGraph图的基本操作(缺一部分 明天补)

    1 DGLGraph图的创建与维护 1.1 生成DGLGraph图并且增加顶点与边 import dgl import torch as th# 边 0->1, 0->2, 0->3 ...

  6. 【Pytorch神经网络理论篇】 39 Transformers库中的BERTology系列模型

    同学你好!本文章于2021年末编写,获得广泛的好评! 故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现, Pytorch深 ...

  7. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  8. 【Pytorch神经网络理论篇】 13 深层卷积神经网络介绍+池化操作+深层卷积神经网络实战

    1 深层卷积神经网络概述 1.1 深层卷积神经网络模型结构图 1.1.1 深层卷积神经网络的正向结构构成剖析 输入层,将每个像素作为一个特征节点输入网络. 卷积层:由多个滤波器组合而成. 池化层:将卷 ...

  9. 【Pytorch神经网络理论篇】 23 对抗神经网络:概述流程 + WGAN模型 + WGAN-gp模型 + 条件GAN + WGAN-div + W散度

    1 对抗神经简介 1.1 对抗神经网络的基本组成 1.1.1 基本构成 对抗神经网络(即生成式对抗网络,GAN)一般由两个模型组成: 生成器模型(generator):用于合成与真实样本相差无几的模拟 ...

最新文章

  1. mybatis分页练手
  2. C++STL中的unique函数解析
  3. c语言和python哪个自学好-有c语言基础 自学python 应该选什么书来看?
  4. 一个css和js结合的下拉菜单,支持主流浏览器
  5. oracle ORA-12526: TNS: 监听程序: 所有适用例程都处于受限 无法使用sqlplus / as SYSDBA
  6. 《大型网站技术架构》读书笔记三:大型网站核心架构要素
  7. Python持续更新的新特性
  8. 详细js读取execl内容并展示
  9. Spring Cloud Netflix Zuul 1.0 简化说明
  10. java 抽象类 注入,spring向抽象类注入问题
  11. asp.net mvc redis同步mysql_Mysql和Redis数据同步策略 - 元思 - 博客园
  12. TLS(Thread Local Storage)问题demo
  13. matlab中TCR触发,TCR+FC型SVC的研究及MATLAB仿真
  14. unity3D使用User32.dll
  15. 1-7 华为HCNA认证eNSP基础A
  16. GPS从入门到放弃(十六)、卫星时钟误差和卫星星历误差
  17. 汽车租赁管理系统(管理车辆基本信息、租车/还车、统计租金)
  18. 360浏览器自动填充表单
  19. ubuntu 使用LVM修改分区大小后开机报错的解决办法
  20. 我的世界神级种子Java_盘点我的世界中单机生存必备的神级种子

热门文章

  1. myeclipse试用小记----Hibernate多对一双向关联(2)
  2. oracle ins-30131错误
  3. 打印hello world java_java – 如何打印“hello world”?
  4. linux系统页面缓存,Linux缓存机制之页缓存
  5. php 计算 目录大小,php计算整个目录大小的方法
  6. linux生产环境下安装anaconda总结
  7. 列的数目比列的名字要多_你们要的甘特图来啦!还有具体做法哦!
  8. python 经典类和新式类
  9. 前端模块化(二):模块化编程
  10. 2017《面向对象程序设计》课程作业三