简介

首先说一下这个东西,全名是PyTorch-Geometric,是一个PyTorch基础上的一个库,专门用于图形式的数据,可以加速图学习算法的计算过程,比如稀疏化的图等。在学习PyG的各个大的分支之前,先看一下官方文档给出的学习例子。参考链接:

https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html

此处直接进行使用的说明,安装过程文档中给出了方式,个人感觉Ubuntu安装会简单一点,但是没有安装过,本人在Windows10安装的,一些依赖库通过VS2019编译,至于为什么不用编译好的wheel文件安装,是因为电脑安装的是Python3.7,大部分编译好的文件都是py36的,所以只能自己编译了。提示一下,windows10编译库的时候过程不是很顺序,出现了很多VS编译的问题。

样例

根据PyG的一些功能函数给出了自带的五个例子,分别为:
(1)图数据处理–Data Handling of Graphs
(2)通用的数据集–Common Benchmark Datasets
(3)小批次–Mini-batches
(4)数据转换–Data Transforms
(5)图上的学习方法–Learning Methods on Graphs

1.Data Handling of Graphs

图(Graph)往往用来表示节点之间成对的关系(也就是边),一个图在PyG中会被定义为torch_geometric.data.Data类的一个实例,常见的类属性如下:

  • data.x 节点的特征矩阵,大小为[num_nodes, num_node_features]
  • data.edge_index图中的边的信息,采用COO格式记录,大小为[2, num_edges],类型为torch.long。COO格式也就是Coordinate Format,采用三元组进行存储,三元组内元素分别为行坐标、列坐标和元素值,此处没有元素值,所以只有2行,num_edges列,每一列表示一个元素。
  • data.edge_attr边的特征矩阵,大小为[num_edges, num_edge_features]
  • data.y训练目标,允许任意形状,比如节点级别的为[num_nodes, *],图级别的为[1, *]
  • data.pos节点的位置矩阵,大小为[num_node, num_dimensions]
    以上属性都不是必须的,而且可以进行属性拓展,上述的属性用于二维图中,如果对于三维网格数据,可以增加属性data.face,大小为[3, num_faces],同样为COO格式。
    举一个简单的例子,边上没有权重,无向图(定义边的时候需要两对索引),如下:
import torch
from torch_geometric.data import Data# 节点不一定从0开始
edge_index = torch.tensor([[3, 1, 1, 2],[1, 3, 2, 1]],dtype=torch.long)
# 注意x是二维的,不是一维的,每一行代表一个节点的特征向量,此处特征维度为1
x = torch.tensor([[-1],[0],[1]], dtype=torch.float)data = Data(x=x, edge_index=edge_index)
print(data)

输出为

Data(edge_index=[2, 4], x=[3, 1])

这里表示的都是维度。如果边数据不是通过COO方式给出的,而是通过节点对方式给出的,需要先转置t()再利用函数contiguous()

# 通过节点对的方式给出
edge_index = torch.tensor([[0, 1], [1, 0], [1, 2], [2, 1]
], dtype=torch.long)
data = Data(x=x, edge_index=edge_index.t().contiguous())
print(data)

两次输出data一致。除此之外,还提供了一部分实用的函数接口:

# 输出data的属性关键字,只有传递参数的才会被输出
print(data.keys)
# ['x', 'edge_index']# 按照关键字进行输出,注意是字符串
print(data['x'])
# tensor([[-1.],
#         [ 0.],
#         [ 1.]])
print(data['edge_index'])
# tensor([[0, 1, 1, 2],
#         [1, 0, 2, 1]])print('edge_attr: ', data['edge_attr'])
# edge_attr:  None# 遍历所有关键字及其对应的数值
for key, item in data:print(key, '---', item)# 可以直接检索key,也可以检索data内函数
if 'edge_attr' not in data.keys:print('Not in')# Not inif 'x' in data:print('In')# In# print(type(data.keys))
# <class 'list'>print(data.num_nodes)
# 3# 这里的边数为4
print(data.num_edges)
# 4print(data.num_edge_features)
# 0print(data.num_node_features)
# 1print(data.contains_isolated_nodes())
# Falseprint(data.contains_self_loops())
# Falseprint(data.is_undirected())
# True

上面有个地方需要注意:
在输出keys的时候是没有edge_attr的,但是可以直接访问data['edge_attr']并且得到返回值为None。于是分析一下Data类的源码:

def __init__(self, x=None, edge_index=None, edge_attr=None, y=None,pos=None, norm=None, face=None, **kwargs):self.x = xself.edge_index = edge_indexself.edge_attr = edge_attrself.y = yself.pos = posself.norm = normself.face = face

首先上面的代码块,可以看到一开始所有的属性都被初始化参数值,而参数的默认值为None

def __getitem__(self, key):r"""Gets the data of the attribute :obj:`key`."""return getattr(self, key, None)

通过重载上面的函数,使得类的对象变为可迭代对象,此时,可以通过data['XXX']访问。此时就明白了为什么可以通过对象访问到edge_attr并且为None。但是为什么从keys中无法获得呢?

    @propertydef keys(self):r"""Returns all names of graph attributes."""keys = [key for key in self.__dict__.keys() if self[key] is not None]keys = [key for key in keys if key[:2] != '__' and key[-2:] != '__']return keys

此处进行一个if self[key] is not None判断。并且需要注意的是Data类的很多函数都被@property修饰。此时,对Data类的使用方式有了一个大致了解,但是此时出现一个疑惑,data中的x的顺序和节点大小顺序是对应的么?是不是x的第一个特征向量就是对应最小编号节点的特征向量呢?这个问题暂时还不能解决,等后面再说。

2.Common Benchmark Datasets

这个库中包含了很多数据集,比如CoraCiteseerPubmed以及图分类数据集等等(详情见文档)。直接对数据集进行初始化,初始化的时候就会自动下载其原始文件并转换为Data格式,以数据集ENZYMES 为例,其中包含600个图分为6类:

from torch_geometric.datasets import TUDatasetdataset = TUDataset(root='data/', name='ENZYMES')
print(dataset)
# ENZYMES(600)

第一次下载需要一点时间,第二次运行就不会下载覆盖了,速度比较快。进行一些测试:

print(type(dataset))
# <class 'torch_geometric.datasets.tu_dataset.TUDataset'>
print(len(dataset))
# 600
print(dataset.num_node_features)
# 3

如果下载比较慢,可以找到链接手动下载,链接位置在TUDataset中实现:

url = ('https://ls11-www.cs.tu-dortmund.de/people/morris/''graphkerneldatasets')
cleaned_url = ('https://raw.githubusercontent.com/nd7141/''graph_datasets/master/datasets')

然后取消掉下载过程(这里的内容以后在单独更新一篇文章仔细说),手动调用制作数据集的函数:

def process(self):

每一个元素都是一个Data实例:

# dataset是一个可迭代对象,并且每一个元素都是一个Data实例,但是y是一个单独的元素,所以说这个数据集是Graph-level的
data = dataset[0]
print(data)
# Data(edge_index=[2, 168], x=[37, 3], y=[1])

数据集切分可以用切片或者tensor:

# 数据集切分
dataset_train = dataset[:500]
dataset_test = dataset[500:]
print(dataset_train, dataset_test)
# ENZYMES(500) ENZYMES(100)
dataset_sample1 = dataset[torch.tensor([i for i in range(500)], dtype=torch.long)]
print(dataset_sample1)
# ENZYMES(500)
dataset_sample2 = dataset[torch.tensor([True, False])]
print(dataset_sample2)
# ENZYMES(1)
print(dataset[0])
# Data(edge_index=[2, 168], x=[37, 3], y=[1])
print(dataset[1])
# Data(edge_index=[2, 102], x=[23, 3], y=[1])
print(dataset_sample2[0])
# Data(edge_index=[2, 168], x=[37, 3], y=[1])

布尔型tensor类似一个滤波器,但是是从头开始的。打乱操作如下:

dataset = dataset.shuffle()
# 等价于
dataset = dataset[torch.randperm(len(dataset))]

下面的函数返回长度为n,范围为0~n-1的一种全排列tensor:

torch.randperm()

官方文档还给出了一个cora数据集的例子,特别的地方在于:

data.train_mask.sum().item()

cora数据集在Data类中额外添加了几个属性,比如train_mask,通过sum函数可以得到train训练集的总数,之所以可以自己定义新的属性,因为:

def __init__(self, x=None, edge_index=None, edge_attr=None, y=None,pos=None, norm=None, face=None, **kwargs):

Data类给了一个**kwargs

3.Mini-batches

神经网络通常会按照batch方式进行训练,PyG通过构建稀疏化的分块对角阵实现mini-batch的并行化,构建方式按照每一个Data实例的edge_index构建一个Graph的邻接矩阵,然后将所有节点的特征向量按行拼接,目标值同理。这也就使得即使一个batch内部的图是不同结构的,也可以一起训练。

通过DataLoader函数进行batch的构造:

from torch_geometric.datasets import TUDataset
from torch_geometric.data import DataLoaderdataset = TUDataset(root='data/', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True)for batch in loader:print(batch)# Batch(batch=[1005], edge_index=[2, 3948], x=[1005, 21], y=[32])

一个batch为32个图,但是每一个图的规模是不一样的,如上案例,第一个batch内的32个图共1005节点,含有3948条边。torch_geometric.data.Batch继承自torch_geometric.data.Data,并且添加了一个额外的属性batchbatch是一个列向量,代表了每一个节点对应到哪一个图。

利用另一个库torch-scatter可以对图信息进行一些计算,比如:

from torch_geometric.datasets import TUDataset
from torch_geometric.data import DataLoader
from torch_scatter import scatter_meandataset = TUDataset(root='data/', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True)for data in loader:print(data)# Batch(batch=[1005], edge_index=[2, 3948], x=[1005, 21], y=[32])x = scatter_mean(data.x, data.batch, dim=0)print(x.size())# torch.Size([32, 21])

此处以每一个图为单位,将各个图中的所有节点的特征向量计算了一个平均值,所以维度为[32, 21]

4.Data Transforms

(本模块个人使用场景不多,暂时不展开描述)
以ShapeNet数据集为例,进行测试,数据集有17000个3D点云,并且每一个点的类别为16类中的一个:

from torch_geometric.datasets import ShapeNetdataset = ShapeNet(root='data/ShapeNet', categories=['Airplane'])
print(dataset[0])
# Data(pos=[2518, 3], y=[2518])

注意:应该在数据集存储到磁盘之前进行pre_transform,这会使得加载速度更快,也就是在第一次下载时进行转换,此时下一次初始化数据集的时候,就会调用转换后的数据集(即使下一次的调用没有指定pre_transform参数)。

5.Learning Methods on Graphs

重要到了比较重要的地方了,也就是如何构建一个模型。这里选择搭建一个简单的GCN模型,并通过Cora数据集进行测试。
首先构建一个两层的GCN:

# 继承torch的类
class Net(torch.nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = GCNConv(dataset.num_node_features, 16)self.conv2 = GCNConv(16, dataset.num_classes)def forward(self, data):x, edge_index = data.x, data.edge_indexx = self.conv1(x, edge_index)x = F.relu(x)x = F.dropout(x, training=self.training)x = self.conv2(x, edge_index)return F.log_softmax(x, dim=1)

注意得是在GCNConv中没有自带非线性处理过程,训练过程和测试过程如下:

if __name__ == '__main__':# 加载数据集dataset = Planetoid(root='data/', name='Cora')# Traindevice = torch.device('cuda' if torch.cuda.is_available() else 'cpu')model = Net().to(device)data = dataset[0].to(device)optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)model.train()for epoch in range(200):optimizer.zero_grad()out = model(data)loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])loss.backward()optimizer.step()# Testmodel.eval()_, pred = model(data).max(dim=1)correct = float(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item())acc = correct / data.test_mask.sum().item()print('Accuracy: {:.4f}'.format(acc))

【PyG学习入门】一:入门使用相关推荐

  1. mybatis学习笔记(3)-入门程序一

    2019独角兽企业重金招聘Python工程师标准>>> mybatis学习笔记(3)-入门程序一 标签: mybatis [TOC] 工程结构 在IDEA中新建了一个普通的java项 ...

  2. [Embeding-2]文本表示学习-词嵌入入门理解

    转载自Scofield Phil: http://www.scofield7419.xyz/2017/09/25/文本表示学习-词嵌入入门理解/ 之前一段时间,在结合深度学习做NLP的时候一直有思考一 ...

  3. numpy pytorch 接口对应_拆书分享篇深度学习框架PyTorch入门与实践

    <<深度学习框架PyTorch入门与实践>>读书笔记 <深度学习框架PyTorch入门与实践>读后感 小作者:马苗苗  读完<<深度学习框架PyTorc ...

  4. 强化学习之基础入门_强化学习基础

    强化学习之基础入门 Reinforcement learning is probably one of the most relatable scientific approaches that re ...

  5. 如何学习Linux / 新手入门

    如何学习Linux / 新手入门 一.从基础开始:常常有些朋友在Linux论坛问一些问题,不过,其中大多数的问题都是很基础的.例如:为什么我使用一个命令的时候,系统告诉我找不到该目录,我要如何限制使用 ...

  6. nginx学习笔记-01nginx入门,环境搭建,常见命令

    nginx学习笔记-01nginx入门,环境搭建,常见命令 文章目录 nginx学习笔记-01nginx入门,环境搭建,常见命令 1.nginx的基本概念 2.nginx的安装,常用命令和配置文件 3 ...

  7. React学习笔记:入门案例

    React学习笔记:入门案例 React 起源于 Facebook 内部项目,因为市场上所有 JavaScript MVC 框架都不令人满意,公司就决定自己写一套,用来架设 Instagram 的网站 ...

  8. python从入门到_Python学习路线从入门到上手,如何快速Python学习?

    因为清晰易读的风格,广泛的适用性,Python已经成为最受欢迎的编程语言之一.在TIOBE 排行榜中位居第四,是名副其实的人工智能第一语言. 风靡的另一个原因是,Python有非常多的第三方库.比如用 ...

  9. OpenCV-Python实战(18)——深度学习简介与入门示例

    OpenCV-Python实战(18)--深度学习简介与入门示例 0. 前言 1. 计算机视觉中的深度学习简介 1.1 深度学习的特点 1.2 深度学习大爆发 2. 用于图像分类的深度学习简介 3. ...

  10. 深度学习究竟怎么入门?两位Google大神掀起剑气之争

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文约2000字,建议阅读5分钟. AI界气宗和剑宗大佬争论新手入门AI哪个路径比较好呢? 作为一名深度学习新手,该先学会 ...

最新文章

  1. 网络模型 - 随机网络,无标度网络,分层网络
  2. anaconda打不开没反应_为什么账户总是有点击没对话?无非这2个原因
  3. OpenCV计算图像的平均值和标准差的函数meanStdDev函数的使用
  4. 幸好权健AI还没落地!一个腕表顶中医,18个关键点就能刷脸
  5. 摩根IT实习经验谈及其他
  6. 《深入理解Java虚拟机》第6章 类文件结构
  7. 面试题之GC垃圾回收算法
  8. 雅虎宣布其史上最严重数据泄露:5亿账户于2014年被盗
  9. 植物免疫研究与抗病虫绿色防控:进展、机遇与挑战
  10. Minecraft Mod 开发:0-前言
  11. windows11安装日语输入法(添加输入法)
  12. 【STL】11 list容器操作
  13. 广州大学机器学习与数据挖掘实验二
  14. QCon北京2019大会定制书单(内有赠书福利)
  15. 【渝粤教育】电大中专消费者行为学30分钟交卷(1)作业 题库
  16. 《炬丰科技-半导体工艺》用湿法臭氧去除各种化学结构的聚合物
  17. ES6语法总结(21)--Generator函数的异步应用
  18. 1838.最高频元素的频数
  19. 基于Android平台的图书管理系统的制作(1)
  20. 小白学编程c语言,小白学编程,是先学C语言还是C++?

热门文章

  1. 换脸方法大汇总:生成对抗网络GAN、扩散模型等
  2. 七大管理工具:SWOT、PDCA、6W2H、SMART、WBS、时间管理、二八原则!
  3. JHM3000体温传感器驱动
  4. misc中文件无扩展名修复
  5. Python初学心得体会
  6. 微信小程序外卖cps和cpa系统
  7. 有N个灯放在一排,N个人进行操作,求灯泡最后的状态
  8. 移动云共筑信创云能力底座,助力中国信创产业发展
  9. 网络安全中的大数据治理
  10. 新装wamp后局域网无法访问的问题