文章来源于Python大数据分析,作者朱卫军

pandas处理大数据的限制

现在的数据科学比赛提供的数据量越来越大,动不动几十个GB,甚至上百GB,这就要考验机器性能和数据处理能力。

Python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。

这里面会有电脑内存等性能的因素,但pandas本身的数据处理机制(依赖内存)也限制了它处理大数据的能力。

当然pandas可以通过chunk分批读取数据,但是这样的劣势在于数据处理较复杂,而且每一步分析都会消耗内存和时间。

下面用pandas读取3.7个GB的数据集(hdf5格式),该数据集共有4列、1亿行,并且计算第一行的平均值。我的电脑CPU是i7-8550U,内存8GB,看看这个加载和计算过程需要花费多少时间。

数据集:

使用pandas读取并计算:

看上面的过程,加载数据用了15秒,平均值计算用了3.5秒,总共18.5秒。

这里用的是hdf5文件,hdf5是一种文件存储格式,相比较csv更适合存储大数据量,压缩程度高,而且读取、写入也更快。

换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢?

使用vaex读取并计算:

文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。

同样是读取1亿行的hdfs数据集,为什么pandas需要十几秒,而vaex耗费时间接近于0呢?

这里主要是因为pandas把数据读取到了内存中,然后用于处理和计算。而vaex只会对数据进行内存映射,而不是真的读取数据到内存中,这个和spark的懒加载是一样的,在使用的时候 才会去加载,声明的时候不加载。

所以说不管加载多大的数据,10GB、100GB...对vaex来说都是瞬间搞定。美中不足的是,vaex的懒加载只支持HDF5, Apache Arrow,Parquet, FITS等文件,不支持csv等文本文件,因为文本文件没办法进行内存映射。

可能有的小伙伴不太理解内存映射,下面放一段解释,具体要弄清楚还得自行摸索:

内存映射是指硬盘上文件的位置与进程逻辑地址空间中一块大小相同的区域之间的一一对应。这种对应关系纯属是逻辑上的概念,物理上是不存在的,原因是进程的逻辑地址空间本身就是不存在的。在内存映射的过程中,并没有实际的数据拷贝,文件没有被载入内存,只是逻辑上被放入了内存,具体到代码,就是建立并初始化了相关的数据结构(struct address_space)。

什么是vaex?

前面对比了vaex和pandas处理大数据的速度,vaex优势明显。虽然能力出众,不比pandas家喻户晓,vaex还是个刚出圈的新人。

vaex同样是基于python的数据处理第三方库,使用pip就可以安装。

官网对vaex的介绍可以总结为三点:

  1. vaex是一个用处理、展示数据的数据表工具,类似pandas;

  2. vaex采取内存映射、惰性计算,不占用内存,适合处理大数据;

  3. vaex可以在百亿级数据集上进行秒级的统计分析和可视化展示;

vaex的优势在于:

  1. 性能:处理海量数据,  行/秒;

  2. 惰性:快速计算,不占用内存;

  3. 零内存复制:在进行过滤/转换/计算时,不复制内存,在需要时进行流式传输;

  4. 可视化:内含可视化组件;

  5. API:类似pandas,拥有丰富的数据处理和计算函数;

  6. 可交互:配合Jupyter notebook使用,灵活的交互可视化;

安装vaex

使用pip或者conda进行安装:

读取数据

vaex支持读取hdf5、csv、parquet等文件,使用read方法。hdf5可以惰性读取,而csv只能读到内存中。

vaex数据读取函数:

数据处理

有时候我们需要对数据进行各种各样的转换、筛选、计算等,pandas的每一步处理都会消耗内存,而且时间成本高。除非说使用链式处理,但那样过程就很不清晰。

vaex则全过程都是零内存。因为它的处理过程仅仅产生expression(表达式),表达式是逻辑表示,不会执行,只有到了最后的生成结果阶段才会执行。而且整个过程数据是流式传输,不会产生内存积压。

可以看到上面有筛选和计算两个过程,都没有复制内存,这里采用了延迟计算,也就是惰性机制。如果每个过程都真实计算,消耗内存不说,单是时间成本就很大。

vaex的统计计算函数:

可视化展示

vaex还可以进行快速可视化展示,即便是上百亿的数据集,依然能秒出图。

vaex可视化函数:

结论

vaex有点类似spark和pandas的结合体,数据量越大越能体现它的优势。只要你的硬盘能装下多大数据,它就能快速分析这些数据。

vaex还在快速发展中,集成了越来越多pandas的功能,它在github上的star数是5k,成长潜力巨大。

附:hdf5数据集生成代码(4列1亿行数据)

import pandas as pd
import vaex
df = pd.DataFrame(np.random.rand(100000000,4),columns=['col_1','col_2','col_3','col_4'])
df.to_csv('example.csv',index=False)
vaex.read('example.csv',convert='example1.hdf5')

注意这里不要用pandas直接生成hdf5,其格式会与vaex不兼容。

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群请扫码进群(如果是博士或者准备读博士请说明):

【Python相关】Vaex :突破pandas,快速分析100GB大数据集相关推荐

  1. python自动化部署hadoop集群_大数据集群的自动化运维实现思路

    原标题:大数据集群的自动化运维实现思路 | 作者简介 王晓伟 知数堂<大数据实战就业>课程讲师 六年大数据相关工作经验 清华大学软件工程硕士 曾就职于网易.搜狗等互联网企业 从事大数据及数 ...

  2. 【Python】快速认识Pandas的10大索引

    公众号:尤而小屋 作者:Peter 编辑:Peter 今天给大家带来一篇关于Pandas索引的文章:10种你必须掌握的Pandas索引. 索引在我们的日常生活中其实是很常见的,就像: 一本书有自己的目 ...

  3. Python相关系列

    Python相关系列 hello,这里是我大二上下学期的python相关期末复习总结,就是为了方便复习啦!有错的话欢迎大家留言哦 一些基础的python知识,放在这是因为印象笔记存的太多啦嘿嘿 1.R ...

  4. 【大数据集群搭建-Apache】Apache版本进行大数据集群各组件环境部署

    [大数据集群搭建-Apache]Apache版本进行大数据集群各组件环境部署 1)大数据环境统一 1.1.设置主机名和域名映射 1.2.关闭服务器防火墙和Selinux 1.3.服务器免密登陆 1.4 ...

  5. python数据分析第三方库是_python数据分析复盘——数据分析相关库之Pandas

    编辑推荐: 本文来源csdn,本文主要对Python的第三方库Pandas,进行高性能易用数据类型和分析. 1.Pandas 简介 1.1 pandas是什么 Pandas是Python第三方库,提供 ...

  6. python中dtypes_关于python:如何通过pandas DataFrame中的列设置dtypes

    我想将一些数据带入pandas DataFrame,并为导入时的每一列分配dtypes. 我希望能够对具有许多不同列的较大数据集执行此操作,但是,例如: myarray = np.random.ran ...

  7. Python使用openpyxl和pandas处理学生成绩Excel文件实用案例

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 京东.天猫.当当均已上架,可以选择自己常用平台搜 ...

  8. Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 送书活动火爆进行中:董老师又双叒叕送书啦,30本 ...

  9. 2w+字长文,一篇文章扫盲Python、NumPy 和 Pandas,建议收藏!

    作为简单易学的编程语言,想要入门还是比较容易的,今天我们来一篇超级长文,一次性扫盲Python.NumPy 和 Pandas,文末提供Python 技术交流群,欢迎加入,喜欢本文,点赞.收藏. 搭建语 ...

最新文章

  1. win10桌面和手机的扩展API,判断是否有实体后退键API
  2. 内存体系 用共享段于进程间联系
  3. RTP之H264封包和解包
  4. PHP基础学习之数组使用要点
  5. 老码农90%的程序员都是瞎努力!这份路线教你成为高手
  6. Idea设置多开窗口
  7. 网站后端开发遇到的问题PHP,谁能帮我检查一下PHP网站后台开发这个问题是什么原因啊?...
  8. diff测试与流量回放测试
  9. 我们在 web 应用开发过程中经常遇到输出某种编码的字 符, 如 iso8859-1 等, 如何输出一个某种编码的字符串?...
  10. 中国石油大学--生活学习简易FAQ
  11. win10如何安装系统得日语输入法(亲测)
  12. android 自动跳转市场,js判断设备,跳转app应用、android市场或者AppStore
  13. java监听服务器信息,java实时监控服务器状态
  14. linux下并行运行脚本与让程序可靠运行
  15. python-鸢尾花分类
  16. 传奇开服怎么开的起来?
  17. java习题小分享【关于statis你知道多少】
  18. 如何用SPSS计算个人BMI值?
  19. 像这2个案例的项目进度延误,如何破?
  20. 和能力匹配的目标才是战略

热门文章

  1. httpModule过滤无后缀名的文件夹路径请求,iis6和iis7的设置
  2. 如何面向用户价值编写敏捷开发用户故事
  3. directx 9.27.1734 多语言完整版 下载
  4. 浏览器在线预览pdf、txt、office文件
  5. 图像预处理第8步:紧缩重排数字字符
  6. mysql sql_safe_updates 分析
  7. cocos2dx打飞机项目笔记五:CCSpriteBatchNode 的使用
  8. 黑马程序员----银行业务调度系统面试题
  9. 解决PyCharm中报出 “Shadows built-in name xxx“ 的警告
  10. javaee实验报告心得_准大四学生七月青软实训总结