点击上方“菜鸟编程大本营”,选“星标”公众号

后台输入:福利,领取一波福利

对于数据分析的工具,想必大家都或多或少的有一定的了解,常见的像是numpy和pandas更是大家日常使用的数据分析工具。但是面对大数据的处理时,像是numpy和pandas的在加载数据时,会看到内存用量的飙升,而dask却可以将这些大的数据进行并行计算。今天小编就带领大家学习一个并行的计算库——dask。dask可以帮助我们并行化处理pandas的DataFrame和numpy的计算,甚至是并行化处理机器学习算法

01.dask库的使用介绍

dask库可以很好的兼容pandas的DataFrame数据和numpy的array数据,此外,像是Sklearn、XGBoost等机器学习库,dask也能够支持。dask的官网(https://dask.org/)对于支持的库有一个全面的展示,下图是部分支持库的展示:

dask库的强大之处在于它拥有丰富的已有库的兼容性,而且只需要改动很少的程序,就可以在自己的电脑上使用并行计算。

02.dask的安装

对于dask库的安装,也非常的简单,大家只需要在anaconda环境下运行conda install dask即可安装。

03.dask库的使用介绍

1).Numpy的array数据dask库对于numpy的array数组操作也非常的简洁。dask是将numpy的数组进行切分,切分成许多的block进行操作,对于小数据来说,可能优势不明显,但是当数据集达到几十G后,就能显示出dask的优势

上图是利用dask进行array的操作,可以看到dask对于numpy数组的处理与numpy的操作并没有很大的区别,如果对于numpy数组操作熟悉的话,那么上手dask的numpy数组也是非常简单的。

2).Pandas的DataFrame数据

对于DataFrame数据,dask的操作同样与pandas非常的类似。需要注意的是,当求分组的“x"列均值时,dask并没有直接输出结果,而是在运行s的compute()函数后,才得到结果,这是与pandas不同的一点。

04.dask的Delayed

对于dask库,Delayed模块是它进行并行计算的核心,delayed 通过将需要计算的任务记录在计算图中,并在之后,将其并行运行在硬件上得到结果。由于不能立即得到结果,所以该模块被称为delayed。对于delayed模块的使用,如下图所示:

可以看到,通过delayed装饰器来修饰函数,在下一个计算框图中定义z的计算,然后通过visualize函数来查看z的计算图,如上图右侧所示。同时可以看到z的计算图只需要不到1ms的时间即可完成。而z值的计算,同样采用z.compute()进行计算即可。

05.对于机器学习算法的支持

对于dask机器学习的应用,可以安装Dask-ML,Dask-ML是将Dask与流行的机器学习库(例如sklearn,XGBoost等)进行结合,提供的并行化机器学习处理库。可以利用pip install dask-ml进行安装。

有兴趣的小伙伴可以安装试一下,用惯了Pandas ,也可以试试换个口味了!欢迎在留言区点评,来个三连哦!

推荐阅读

2021编程语言「后浪」趋势预测:JavaScript、Python热度不减,但崛起最快的却是它

955 不加班公司名单:955.WLB

抖音创始人张一鸣:10 年面试 2000 人,我发现混的好的人,全都有同一个特质

卧槽!没想到,用Python竟能做五仁月饼

Python 初学者进阶的九大技能

终于,Flask 迎来了真正的对手!

7个最佳的学习Python编程的开源库

每个程序员都是从菜鸟开始成长起来的,没有人生下来就是程序员高手。菜鸟编程大本营,专注于分享趣味的编程技巧,不限于Java, Python ,Go, Javascript等语言,让菜鸟爱上编程,进阶成为高手。

菜鸟编程本营,从菜鸟进阶高手
点这里,获取新手福利

pandas 菜鸟_再见Numpy,Pandas!又一个数据分析神器横空出现!相关推荐

  1. pandas 机器学习_机器学习的PANDAS

    pandas 机器学习 Pandas is one of the tools in Machine Learning which is used for data cleaning and analy ...

  2. pythonpandas读取csv文件最后一行_使用numpy / pandas在Python中讀取CSV文件的最后N行

    7 With a small 10 line test file I tried 2 approaches - parse the whole thing and select the last N ...

  3. pandas添加一行数据_恨晚,Python探索性数据分析神器pandas-profiling,一行代码搞定...

    我们使用Pandas进行数据分析时,首先要先对数据集进行探索性数据分析(Exploratory data analysis),以便有一个大体的了解,明确后续数据处理.分析方向,数据EDA大致包含如下内 ...

  4. 获取同花顺数据接口_如何获取价值信息?数据分析“神器”pandas了解一下!

    来源:雪球App,作者: 同花顺-iFinD,(https://xueqiu.com/6706494343/142846912) 金融市场往往充斥着海量的交易.运行等数据,同花顺iFinD数据接口通过 ...

  5. 战网下载CDN重定向失败_卧槽,又开源一个下载神器,利用各种平台下载任意文件...

    @Travis-CI && @GithubAction && @Coding && @Vercel,你帮我下载文件行吗QvQ 前言 开源地址:https ...

  6. python numpy pandas 书 全_用Python做数据分析,Numpy,Pandas,matp

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的<利用Python进行 ...

  7. numpy 删除所有为_用Numpy和Pandas工具分析销售数据

    在数据分析领域,Python中用到最多的包是numpy,pandas和matplotlib,本文共分为三个部分:1.使用numpy和pandas分析一维数据 2.使用numpy和pandas分析二维数 ...

  8. 使用Matplotlib Numpy Pandas构想泰坦尼克号高潮

    Did you know, a novel predicted the Titanic sinking 14 years previously to the actual disaster??? 您知 ...

  9. 数据分析之python数据计算方法汇总(math|numpy|pandas)

    数据分析之python数据计算方法上篇(math|numpy)_Backup and share的博客-CSDN博客 本文重点介绍pandas,math和numpy参见上篇> 目录 一.简介与创 ...

最新文章

  1. 安徽自考计算机基础考试时间,安徽2021年4月自考考试时间
  2. python实现ocr识别文字
  3. golang context 父子任务同步取消信号 协程调度 简介
  4. 迎来“进化”风口的电竞,能否在未来站上传统体育的肩膀?
  5. yum -y install与yum install有什么不同
  6. Spring Cloud 版本支持
  7. 浙江省经信委与新华三签署战略合作协议
  8. matlab中gatbx工具箱的添加
  9. 100个犯人和一个亮灯泡_每个人都在一个开放的组织中更换灯泡
  10. python可以画动态图吗_matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
  11. PHP如何获取用户IP地址
  12. code collection 0.44版 发布
  13. Laravel渴求式加载
  14. 墨画子卿第三章第6节:我是画珞
  15. 解决eclipse报错:错误: 在类中找不到 main 方法, 请将 main 方法定义为:public static void main(String[] args)
  16. linux signal
  17. 用Python分析了5万条相亲网站数据,看相亲男女画像
  18. 全国首例 | 国产ECMO在阜外医院成功救治一名患者
  19. DSP SMBus总线通信
  20. 今日头条的排名算法_3分钟看懂今日头条算法原理

热门文章

  1. 修改windows cmd f2快捷_解放你的右手,实测12个超好用的自带快捷键
  2. 4000元性价比主机
  3. WSL安装记录及相关
  4. Python内置函数之 range()
  5. Python学习笔记——如何获得数值类型的最大值和最小值(表示范围)
  6. 【有趣】Python之禅
  7. matplotlib中改变字体的方法
  8. Java获取资源的路径
  9. 随记 elasticsearch
  10. 【转】UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 1: invalid continuation 汉字编码