1. 前言

在深度学习任务,例如推荐系统中,将关系转换为图表示,即邻接矩阵是常用的操作。

通常的做法是先将关系对数据转换为图数据,然后生成该图的邻接矩阵,再存储为稀疏矩阵。但这种方法不适用于大型矩阵的操作,通常会报内存溢出的错误。以推荐系统的Amazon的评级数据为例(Movielens等同理),这里提供一种方法将图数据直接存储为稀疏矩阵。

2. 传统方法

传统方法先读入数据,然后获取关系对,将关系对保存为图,再用networkx.to_numpy_matrix()提取图的邻接矩阵,最后用scipy.sparse.csr_matrix()保存为稀疏矩阵。代码如下:

# 导入包
import scipy.sparse as sp
import pandas as pd
import networkx as nx# 读取关系对数据
df = pd.read_table('ratings.txt', sep=' ', header=None) # 读取数据集为 pandas
relation_df = pd.DataFrame(df, columns=[0, 1]) # 取出交互关系# pandas 转 numpy
relation_list = []
for index, row in relation_df.iterrows(): relation_list.append((row[0], row[1]))g = nx.Graph(relation_list) # 交互关系转换为图
d_A = nx.to_numpy_matrix(g) # 生成图的邻接矩阵 numpys_A = sp.csr_matrix(d_A) # numpy 转换为 稀疏矩阵
sp.save_npz('adj.npz', s_A)  # 保存稀疏矩阵
# csr_matrix_variable = sp.load_npz('adj.npz') # 读取稀疏矩阵

3. 直接转换为稀疏矩阵

传统方法只能顺利处理小型矩阵,遇到大矩阵时,networkx.to_numpy_matrix()会报内存溢出的错误。解决办法是不用两步转换,而是用networkx.to_scipy_sparse_matrix()方法直接从图存储为邻接矩阵的稀疏矩阵格式。代码如下:

# 导入包
import scipy.sparse as sp
import pandas as pd
import networkx as nx# 读取关系对数据
df = pd.read_table('ratings.txt', sep=' ', header=None) # 读取数据集为 pandas
relation_df = pd.DataFrame(df, columns=[0, 1]) # 取出交互关系# pandas 转 numpy
relation_list = []
for index, row in relation_df.iterrows(): relation_list.append((row[0], row[1]))g = nx.Graph(relation_list) # 交互关系转换为图
s_A = nx.to_scipy_sparse_matrix(g, dtype=int, format='csr') # 生成图的邻接矩阵的稀疏矩阵
sp.save_npz('adj.npz', s_A)  # 保存稀疏矩阵
# csr_matrix_variable = sp.load_npz('adj.npz') # 读取稀疏矩阵

4. networkx.to_scipy_sparse_matrix()的用法

摘自 to_scipy_sparse_matrix — NetworkX 2.8.8 documentation

用法:

to_scipy_sparse_matrix(G, nodelist=None, dtype=None, weight='weight', format='csr')

将图形邻接矩阵作为SciPy 稀疏矩阵返回。

参数:

  • G:图
    NetworkX 图,用于构造稀疏矩阵。
  • nodelist:列表,可选
    行和列根据 nodelist 中的节点进行排序。如果nodelist为None,则排序由 G.nodes() 生成。
  • dtype:NumPy 数据类型,可选
    用于初始化数组的有效 NumPy格式的dtype。如果None,则使用 NumPy 默认值(np.float64)。
  • weight:字符串或无可选(default=‘weight’)
    保存用于边权重的数值的边属性。如果 None 则所有边权重为 1。
  • format:{‘bsr’, ‘csr’, ‘csc’, ‘coo’, ‘lil’, ‘dia’, ‘dok’} 中的字符串
    要返回的矩阵类型(默认 ‘csr’)。对于某些算法,稀疏矩阵的不同实现可以表现得更好。

返回:

  • A:SciPy 稀疏矩阵
    图的邻接矩阵的稀疏矩阵。

Python 将关系对数据转换为图数据 / 邻接矩阵相关推荐

  1. R语言Box-Cox变换实战(Box-Cox Transformation):将非正态分布数据转换为正态分布数据、计算最佳λ、变换后构建模型

    R语言Box-Cox变换实战(Box-Cox Transformation):将非正态分布数据转换为正态分布数据.计算最佳λ.变换后构建模型 目录

  2. 把Sql数据转换为业务数据的几种方法

    ORM系统必须把数据库中的数据转换为业务数据,转换的方法大致有3种,本文就试图对它们做一些简单分析. 1.属性反射.就是通过反射,获取业务实体类的各个属性,然后再设置这些属性的值.这个方法最简单.最稳 ...

  3. arcmap shp导出cad无反应_如何使用ArcMap将Excel数据转换为shp数据

    1. 概述 对ArcMap而言,除了shapefile等数据源,还可以将包含地理位置的表格数据以 XY 坐标的形式添加到地图中,比如Excel格式的数据,如果包含有坐标数据在里面,就可以通过导入XY数 ...

  4. 数字数据转换为字符数据_为什么替代数据对数字转换至关重要

    数字数据转换为字符数据 边缘是数据的未来(Fringe is the future of data) Alternative data has been a buzzword among invest ...

  5. 字节数据转换为浮点数据

    /*====================================字节数据转换为浮点数据输入数据:要转换的四字节数据在arr[]中顺序是从低(charData[0])到高(charData[ ...

  6. 【图神经网络】图数据和图数据相关任务

    引言 本文是学习刘忠雨老师所著的<深入浅出图神经网络>过程中的笔记和记录整理,最后会有参考文献标注对应章节和内容中可能出现的参考文献.博文出处. 目录 概述 图的基本类型 图数据 同构图( ...

  7. GAMS将har数据转换为gdx数据和Access数据过程中的异步问题

    GAMS是非常优秀的经济学建模软件,可以用来求解一般均衡和其他优化问题.GTAP作为一种大型多区域CGE模型,也可以使用GAMS来求解,但使用之前,必须将GTAP提供的har数据转换为GAMS所能使用 ...

  8. 24bit有符号数据转换为整形数据

    24bit数据转换为int型 即3个字节, HH MM LL 当数据是正数时,直接转换为int: 当数据是负数时,需要先把当前数取反,再+1,得到的新数据再转换为int,最后加"-" ...

  9. 精美Visio架构图,数据流向图,数据抗压机制,应付领导专用

    N久之前画的Visio图,当时为了给领导展示架构设计.想来想去也只有图能比较好的表现.而自己的文笔又不行. 下载地址:http://download.csdn.net/detail/gzy11/973 ...

最新文章

  1. ka电器表示什么意思_电器上的KA是指的什么电流?
  2. Burp Suite入门笔记
  3. 走完线上 BUG 定位最后一公里
  4. amd 安装 linux驱动怎么安装教程,请教,怎么在ubuntu里安装amd显卡驱动
  5. java 网络实验_20145220 实验五 Java网络编程
  6. ftp ---- 认识ftp
  7. [Java] 蓝桥杯ALGO-146 算法训练 4-2找公倍数
  8. oracle数据库王珊,数据库系统概论 王珊 教材部分总结
  9. Hibernate-03-Hibernate的检索方式
  10. 防止浏览器记住用户名及密码的简单实用方法
  11. python中xlrd模块的用法_用xlrd模块读取合并单元格(merged cell)
  12. 5g无线图传信号测试软件,不到千元的5G无线图传?小试致迅CineEye
  13. python中len函数返回值为int吗_Python len()函数
  14. 机器学习中的度量指标:ROC曲线,AUC值,K-S曲线
  15. Android模拟器检测体系梳理,kotlin入门
  16. Vue2和Vue3的双向数据绑定原理
  17. prism 创建ViewModel
  18. 骨牌铺方格(递归问题)
  19. WPF自定义控件(教程含源码)-圆形进度条、环形进度条
  20. 【附源码】Python计算机毕业设计母婴商品店进出货管理系统

热门文章

  1. Arcgis处理栅格数据中Nodata值
  2. 用html完成编辑日程,10款jQuery实现对简洁大气的日程安排日历
  3. 大疆睿炽Tello EDU无人机python操控之二——使用Tello-Python-master示例程序控制Tello EDU无人机
  4. 常用射频器件性能指标
  5. 个人或企业申请专利需要什么材料专利费减的条件是什么?
  6. 魔法成为现实?武大学生团队造出了“隐身衣”,成本不到 500 元
  7. 微信小程序|小程序的构成(初识小程序详细简介)
  8. 【Linux】环境变量和命令行参数
  9. 计算机d盘d桌面不见了,计算机D驱动器中的文件夹自动消失. 我没有隐藏或删除它. 我为什么找不到它?...
  10. (转)工作是一种本能?