问题

设计的代码能hold住小规模数据
你准备将该代码用来处理真实场景的数据
但惊喜的是你的代码崩溃了
问题: 你的电脑只有16G内存，但现在却要应付50G大小的数据。

硬件解决办法

换装备，比如64G内存的电脑
租用云服务器，64核432G内存，每小时几十元

软件解决办法

压缩你的数据
分块读取，一次只读一块。
对数据进行索引标注，只在需要的时候导入内存

本教程涉及

numpy和pandas的三种思维来处理内存占用和性能问题

压缩
分块
索引

一、压缩

指的是同样的信息量数据，使用更少的内存。
在内存上压缩，而非在硬盘里压缩

1.1 压缩：Numpy dtype

numpy类型	介绍	数值范围
np.int8	字节	（-128 to 127）
np.int16	整数	（-32768 to 32767）
np.int32	整数	（-2147483648 to 2147483647）
np.int64	整数	（-9223372036854775808 to 9223372036854775807）
np.uint8	无符号整数	（0 to 255）
np.uint16	无符号整数	（0 to 65535）
np.uint32	无符号整数	（0 to 4294967295）
np.uint64	无符号整数	（0 to 18446744073709551615）
np.float16	半精度浮点数，包括：1 个符号位，5 个指数位，10 个尾数位
np.float32	单精度浮点数，包括：1 个符号位，8 个指数位，23 个尾数位
np.float64	双精度浮点数，包括：1 个符号位，11 个指数位，52 个尾数位

同样的整数，用np.int64占用的内存是np.int16的4倍

import numpy as npint64arr = np.ones((1024, 1024), dtype=np.int64)
int16arr = np.ones((1024, 1024), dtype=np.int16)#占用（内存）的字节数
print(int64arr.nbytes)
print(int16arr.nbytes)

8388608
2097152

1.2 压缩: 稀疏的数组

https://sparse.pydata.org/

数组中有大量的0
内存浪费在很多0身上
稀疏数据只存储非0数据
用numpy数组对数据进行插值
不同的表达数据的方式

sparse可以压缩数据内存占用量，看一个例子

import numpy as nparr = np.random.random((1024, 1024))
arr[arr < 0.9] = 0print(arr)

[[0.         0.         0.         ... 0.         0.94559922 0.        ][0.         0.         0.         ... 0.         0.         0.        ][0.         0.         0.         ... 0.         0.         0.        ]...[0.94589484 0.         0.         ... 0.96746948 0.         0.        ][0.         0.         0.         ... 0.96236294 0.         0.        ][0.         0.         0.         ... 0.         0.         0.        ]]

import sparse #需要安装sparse
sparse_arr = sparse.COO(arr)
print(sparse_arr)

<COO: shape=(1024, 1024), dtype=float64, nnz=104998, fill_value=0.0>

print(arr.nbytes)
print(sparse_arr.nbytes)

8388608
2519952

1.3 压缩: Pandas dtype

如果知道数据的字段，可以在pandas导入数据时就设定字段的dtype参数，减少不必要的内存开支。例如

import pandas as pd
import numpy as np#不设定dtype
df1 = pd.read_csv('data.csv')
df1

trip_id是整数，默认pandas用的是np.int64, 我们可以将其设定为np.int32

#设定dtype参数
df2 = pd.read_csv('data.csv', dtype={"trip_id": np.int32})
df2

print(df1['trip_id'].nbytes)
print(df2['trip_id'].nbytes)

40
20

我们可以看到通过指定dtype，trip_id字段占用的内存少了一半。

二、分块

2.1 分块处理全部的数据

也可以分块处理全部的数据，最后将结果再汇总，减少电脑的内存压力。比如我们想求长度为1024的数组arr中的最大值

import numpy as np#长度1024的数组arr
arr = np.random.random(1024)arr

array([0.37143228, 0.14093017, 0.67051473, ..., 0.42278493, 0.38588344,0.11637298])

#一次性求最大
max(arr)

0.9994997367530419

#分块，汇总求最大
max(max(arr[:500]), max(arr[500:]))

0.9994997367530419

2.2 分块：Pandas也能分块

分块依次读取，这样可以对比电脑内存还大的数据进行运算操作。

import pandas as pdmax_record = 0#分块依次读取，专业
for chunk in pd.read_csv('my.csv',chunksize=100):#块的记录数为100条max_record = max(max_record,max(chunk['某个需要求最大值的字段名']))print(max_record)

598000

2.3 并行: 对很多块并行处理

如果数据块之间彼此独立
且对数据块的计算也是独立的
我们可以利用电脑多核进行并行运算
并不会降低内存占用，但是会提高运行速度

块的大小，需要满足

64G内存，并行数为1时，处理的块数据大小不超过60G
64G内存，并行数为4时，处理的块数据大小不超过15G

三、索引

3.1 索引：需要的时候再调用

索引是对数据的准确描述
索引对应的数据一定比内存小很多
索引能告诉程序数据的子集在哪里

3.2 索引 vs 分块

分块需要导入所有的数据， "What is the longest word in this book?"需要研究这本书的每一页。
索引只导入数据的子集, "How much money did we spend in July?"，只需要在意July，其他月份不用考虑。
两者经常搭配使用

3.3 索引：Pandas不支持索引

所以需要自定义,实现索引功能

def get_subset(csvf, field, conditon):"""从csv数据中抽取出field值为condition的所有数据。csvf: csv文件的路径field: 需要的字段conditon: 字段field需要满足的条件"""return pd.concat(df[df.field==conditon] for df in pd.read_csv(csvf, chunksize=1000))

3.4 索引: SQLite&pandas

如何让sqlite数据库也能分块

import sqlitedef create_index(csvf, dbname, field):"""将csv中的数据转移至sqlite数据库，并给field创建索引dbname: sqlite数据库库名field: 需要创建索引的字段名"""db=sqlite.connect("{}.sqlite".format(dbname))for chunk in pd.read_csv(csvf, chunksize=1000):chunk.to_sql(dbname, db, if_exists='append')db.execute("CRESTE INDEX {field} ON {dbname}({field})".format(field=field, dbname=dbname, field=field))db.close()def get_subset(dbname, field, conditon):"""从dbname中抽取出field值为condition的所有数据。dbname: sqlite数据库库名field: 需要的字段condition: 字段field需要满足的条件"""conn = sqlite3.connect("{}.sqlite".format(dbname))q = ("SELECT * FROM {db} WHERE {field} = {condtion}".format(db=dbname, field=field, condition=conditon))return pd.read_sql_query(q, conn)

3.5 索引：SQLite vs csv

使用70k voters数据对比

Cambridge,MA : 70k voters

类型	操作	内存占用情况
CSV	分块依次读取10000行 + 按条件找出需要的数据	574ms
SQLite	索引找出需要的数据	10ms

总结

同样的问题

内存快但贵
硬盘便宜但慢

解决办法：压缩、分块（有条件的并行）、索引
对了，如果不差钱，事情会好办不少。。。

公众号后台回复关键词 pandas_numpy, 可获得该数据集

往期文章

中文文本分析相关资源汇总

cnsenti中文情绪情感分析库

70G上市公司定期报告数据集

如何计算出文本数据的相似矩阵？

两行代码读取pdf、docx文件

三行代码计算文本相似性

5个小问题带你理解列表推导式

文本数据清洗之正则表达式

Python网络爬虫与文本数据分析

综述:文本分析在市场营销研究中的应用

LabelStudio多媒体数据标注工具[5星推荐]

如何批量下载上海证券交易所上市公司年报

Loughran&McDonald金融文本情感分析库

如何使用Python快速构建领域内情感词典

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

YelpDaset: 酒店管理类数据集10+G

看在这么多数据面子上，给我点好看可好❤

Numpy和Pandas性能改善的方法和技巧相关推荐

CPU CACHE优化性能优化方法和技巧
转载来源:性能优化方法和技巧系列目录性能优化方法和技巧性能优化的方法和技巧:概述性能优化的方法和技巧:代码性能优化的方法和技巧:工具这是一个可以用一本书来讲的话题,用一系列博客来讲,可能会 ...
大规模数据库的性能改善方法之一数据分割
大规模数据库的性能改善方法之一数据分割 http://blog.sina.com.cn/s/blog_803d9ba90100xg25.html 1.引言随着计算机应用领域的拓展和计算机硬件性能的 ...
python安装pandas模块-python安装numpy和pandas的方法步骤
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
Python中的数据可视化工具与方法——常用的数据分析包numpy、pandas、statistics的理解实现和可视化工具matplotlib的使用
Python中的数据可视化工具与方法本文主要总结了: 1.本人在初学python时对常用的数据分析包numpy.pandas.statistics的学习理解以及简单的实例实现 2.可视化工具matp ...
python数据清洗工具、方法、过程整理归纳（一、数据清洗之常用工具——numpy，pandas）
文章目录 1 背景 2 常用工具 2.1 numpy 2.2 pandas 1 背景数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步: 数据分析的过程决定了数据分析的准确性 ...
python安装numpy-python安装numpy和pandas的方法步骤
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
[Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
NumPy 和 Pandas 数据分析实用指南：1~6 全
原文:Hands-On Data Analysis with NumPy and pandas 协议:CC BY-NC-SA 4.0 译者:飞龙一.配置 Python 数据分析环境在本章中,我们将 ...
数据基础---numpy、pandas使用教程
数组对象 Numpy库 Numpy最重要的一个特点是就是其N维数组对象,即ndarray,ndarray是一个通用的同构数据多维容器,其中的所有元素必须是相同类型的.每个数组都有一个shape(一个表 ...

Numpy和Pandas性能改善的方法和技巧

问题

硬件解决办法

软件解决办法

本教程涉及

一、压缩

1.1 压缩：Numpy dtype

1.2 压缩: 稀疏的数组

1.3 压缩: Pandas dtype

二、分块

2.1 分块处理全部的数据

2.2 分块：Pandas也能分块

2.3 并行: 对很多块并行处理

三、索引

3.1 索引：需要的时候再调用

3.2 索引 vs 分块

3.3 索引：Pandas不支持索引

3.4 索引: SQLite&pandas

3.5 索引：SQLite vs csv

总结

往期文章

Numpy和Pandas性能改善的方法和技巧相关推荐

最新文章

热门文章

Numpy和Pandas性能改善的方法和技巧

问题

硬件解决办法

软件解决办法

本教程涉及

一、 压缩

1.1 压缩：Numpy dtype

1.2 压缩: 稀疏的数组

1.3 压缩: Pandas dtype

二、 分块

2.1 分块处理全部的数据

2.2 分块：Pandas也能分块

2.3 并行: 对很多块并行处理

三、索引

3.1 索引：需要的时候再调用

3.2 索引 vs 分块

3.3 索引：Pandas不支持索引

3.4 索引: SQLite&pandas

3.5 索引：SQLite vs csv

总结

往期文章

Numpy和Pandas性能改善的方法和技巧相关推荐

最新文章

热门文章

一、压缩

二、分块