大数据文摘作品,转载要求见文末,作者 | Adam Geitgey,编译 | 元元、Lisa、Saint、Aileen。

Python绝对是处理数据或者把重复任务自动化的绝佳编程语言。要抓取网页日志?或者要调整一百万张图片?总有对应的Python库让你轻松完成任务。

然而,Python的运算速度一直饱受诟病。默认状态下,Python程序使用单个CPU的单个进程。如果你的电脑是最近十年生产的,多数情况下会有4个及以上CPU核。也就是说,当你在等程序运行结束的时候,你的计算机有75%或者更多的计算资源都是空置的!

让我们来看看如何通过并行运算充分利用计算资源。多亏有Python的concurrent.futures模块,仅需3行代码就可以让一个普通程序并行运行。

一般情况下的Python运行

比如说我们有一个文件夹,里面全是图片文件,我们想给每一张图片创建缩略图。

下面的短程序中我们使用Python自带的glob 函数获取一个包含文件夹中所有图片文件的列表,并用Pillow图片处理库获取每张图片的128像素缩略图。

这个程序遵循很常见的数据处理模式:

1.   从您想处理的一系列文件(或其他数据)开始

2.   编写一个处理一个数据的辅助函数

3.   用for循环调动辅助函数,一个一个的去处理数据

让我们用1000张图片来测试这个程序,看看运行时间是多少。

程序运行时间8.9秒,但是计算机的运算资源占用了多少呢?

让我们再跑一次程序,同时查看活动监视器:

计算机有75%空置,这是为什么呢?

问题在于我的计算机有4个CPU核,但是Python只用了其中一个核。即便我的程序把那个CPU核完全占满,但是其他3个CPU核什么也没干。我们需要想办法把整个程序的工作量分成4份然后平行运行。所幸Python可以做到这一点!

让我们来试试并行运算

下面是实现并行运算的一个方法:

1.把Jpeg图片文件列表分成4个部分。

2. 同时跑四个Python解释器。

3. 让四个解释器分别处理一部分图片文件。

4. 汇总四个解释器的结果得到最终结果。

四个Python程序分别在4个CPU上运行,跟之前在1个CPU运行相比大概可以达到4倍的速度,对不对?

好消息是Python可以帮我们解决并行运算麻烦的部分。我们仅需要告诉 Python我们想要运行什么函数以及我们希望工作分成多少份,其他部分留给Python。我们只需要修改三行代码。

首先,我们需要导入concurrent.futures库。这个库是Python自带的:

然后,我们需要告诉 Python另外启动4个Python实例。我们通过创建Process Pool来传达指令:

默认设置下,上面的代码会给计算机的每一个CPU创建一个Python进程,所以如果您的计算机有4个CPU,就会开启4个Python进程。

最后一步是让Process Pool 用这4个进程在数据列表中执行我们的辅助函数。我们可以把我们之前的for循环替代为:

新代码是调用executor.map()函数

executor.map() 函数调用时需要输入辅助函数和待处理的数据列表。这个函数帮我们完成所有麻烦的工作,把列表分成几个小列表,把小列表分配给每个子进程,运行子进程,以及汇总结果。干得漂亮!

我们也可以得到每次调用辅助函数的结果。executor.map()函数以输入数据顺序返回结果。 Python的zip()函数可以一步获取原始文件名以及相应结果。

下面是经过三步改动之后的程序:

让我们试着运行一下,看看有没有缩短运行时间:

2.274秒程序就运行完了!这便是原来版本的4倍加速。运行时间缩短的原因正是我们这次用4个CPU代替了1个CPU。

但是如果您仔细看看,您会看到“用户(User)”时间大概是接近9秒,如果程序2秒就运行结束了,为什么客户时间会是9秒?这似乎…有哪里不对?

其实这是因为”用户”时间是所有CPU时间的总和。我们和上次一样,用9秒的总CPU。

注意:启用Python进程以及给子进程分配数据都会占用时间,因此您不一定能靠这个方法大幅提高速度。如果您处理的数据量很大,这里有一篇“设置chunksize参数的技巧”文章可能可以帮助您:https://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.Executor.map。

这种方法总能帮我的程序提速吗?

当你有一列数据,并且每个数据都可以独立处理的时候,使用Process Pools是一个好方法。这有一些适合使用并行处理的例子:从一系列单独的网页服务器日志里抓取数据。

从一堆XML,CSV和JSON文件中解析数据。

对大量图片数据做预处理,建立机器学习数据集。

但Process Pools不是万能的。使用Process Pool需要在独立的Python处理过程中将数据来回传递。如果你正在使用的数据不能在处理过程中有效的被传递,这种方法就行不通。你处理的数据必须是Python知道怎么搞定的类型(https://docs.python.org/3/library/pickle.html#what-can-be-pickled-and-unpickled)。

同时,数据不会按照一个预想的顺序被处理。如果你需要前一步的处理结果来进行下一步骤,这种方法也行不通。那GIL怎么办?

你可能听说过Python有一个全局解释器锁(Global Interpreter Lock,),缩写为GIL。这意味着即使你的程序是多层的,每一层也只有一个Python命令能被执行。GIL确保任何时候都只有一个Python线程执行。 GIL最大的问题就是Python的多线程程序并不能利用多核CPU的优势。

但Process Pools能解决这个问题!因为我们在运行单独的Python实例,每个实例都有自己的GIL。这样你就有了真正的并行处理的Python代码!

不要害怕并行处理!

有了concurrent.futures库,Python可以让你简简单单地修改脚本,却能立刻调用你电脑上所有CPU内核开足马力地运行。不要害怕尝试。一旦你会用了,它就像写一个for循环那样简单,但会让整个程序快很多。

原文链接:https://medium.com/@ageitgey/quick-tip-speed-up-your-python-data-processing-scripts-with-process-pools-cf275350163a

python 多核并行计算_嫌Python太慢?并行运算Process Pools三行代码给你4倍提速!相关推荐

  1. python 多核并行计算_手把手 | 嫌Python太慢?并行运算Process Pools三行代码给你4倍提速!...

    大数据文摘作品,转载要求见文末 作者 | Adam Geitgey 编译 | 元元.Lisa.Saint.Aileen 原文链接 | https://medium.com/@ageitgey/quic ...

  2. python gpu并行计算_【Python - GPU】基于Python的GPU加速并行计算 -- pyCUDA

    Python实现的CUDA – pyCUDA Nvidia的CUDA 架构为我们提供了一种便捷的方式来直接操纵GPU 并进行编程,但是基于 C语言的CUDA实现较为复杂,开发周期较长.而python ...

  3. python多核并行计算_Python 多核并行计算

    以前写点小程序其实根本不在乎并行,单核跑跑也没什么问题,而且我的电脑也只有双核四个超线程(下面就统称核好了),觉得去折腾并行没啥意义(除非在做IO密集型任务).然后自从用上了32核128GB内存,看到 ...

  4. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  5. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  6. Python第三方库巧用,制作图片验证码只需三行代码

    现在验证码的种类真的是越来越多,短信验证码.语音验证码.图片验证码.滑块验证码 - 我们在 PC 的网页端或者手机上的 app 进行登录或者注册时,应该总会遇见图片验证码,比如下面这类: 上面这些图片 ...

  7. python怎么实现并行计算_用Python实现多核心并行计算

    平常写的程序,无论是单线程还是多线程,大多只有一个进程,而且只能在一个核心里工作.所以很多应用程序即使正在满载运行,在任务管理器中CPU使用量还是只有50%(双核CPU)或25%(四核CPU) 如果能 ...

  8. python多核并行计算_python多核并行

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! python中的并行由于cpython中的gil的存在我们可以暂时不奢望能在cp ...

  9. python 删除断点_给 Python 开发者的四条忠告!强烈建议收藏

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 天元浪子 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

最新文章

  1. 后缀数组的学习(三):SA数组实现代码分析
  2. 关于Python编程的一些问答
  3. Tool之ADB:ADB工具的简介、安装、使用方法之详细攻略
  4. SAP和CRM相关的标准教材,学通了这些,就算是CRM专家了
  5. eclipse MyEclipse中安装 spket插件 js文件内容字体变小解决方案
  6. Spring Cloud —— RocketMQ 的消息类型
  7. dedecms 添加,编辑文章时 文章标题有字数限制的解决办法。
  8. python docx表格宽度_RPA手把手——python-docx 设置 word 文档中表格格式
  9. kk服务器信息及端口,kk服务器设置
  10. 解决npm 下载速度慢的问题
  11. 软件开发模型:瀑布模型,增量模型,原型模型,螺旋模型,喷泉模型,敏捷开发模型
  12. dsp+c语言字符串,DSP中常用的C语言关键字
  13. 驱动人生6网卡版 v6.1.19.90 官方版
  14. 萤石开放平台 .net c# sdk
  15. Spring validation框架简介
  16. TMS320F28379D创建工程
  17. 7.基本数据类型详细讲解-int/bool/str
  18. 2020最新WordPress网站优化教程
  19. linux pptpd源码,Centos 7 源码安装pptpd
  20. 过河问题(贪心算法)(python)

热门文章

  1. 计算机开机后黑屏 只有鼠标,开机黑屏只有鼠标
  2. 在js中访问html页面,javascript – 在IE9的html页面中访问js里面的全局函数
  3. PHP数组之间的比较,PHP 数组之间的比较方法:
  4. java在捕获异常并弹窗_Java捕获异常的问题
  5. php多图片上传并压缩,PHP 上传图片并压缩方法详解
  6. 虚拟机下挂载CentOS 镜像并配置yum本地镜像源
  7. 001mongodb数据库介绍002mongodb的增删改查003数据导入导出
  8. faster-rcnn tensorflow windows demo运行
  9. 奇瑞a3中控按键图解_实拍奇瑞全新瑞虎e 十万元级纯电SUV新选择
  10. vue人员轨迹_Vue项目(vuecli3.0搭建)集成高德地图实现路线轨迹绘制