我最近开始尝试多处理以加快任务速度。我创建了一个脚本,该脚本执行模糊字符串匹配,并使用不同的算法来计算分数(我想比较不同的匹配技术)。您可以在这里找到完整的源代码:https://bitbucket.org/bergonzzi/fuzzy-compare/src。作为输入,它需要将2个文件组合成对(file1的每一行与file2的每一行)。对于每对,计算模糊匹配分数。

我做了3个版本。使用我的存储库中提供的样本数据(合并成对后包含697.340个项目)运行,我有以下计时:

简单的单一流程-0:00:47

使用Pool.map()进行多进程-0:00:13

使用队列的多进程(生产者/消费者模式)-0:01:04

我试图理解为什么Pool.map()版本比Queue版本要快得多,而Queue版本实际上比简单的单进程版本要慢。

我什至尝试使用Queue的理由是,Pool.map()版本会一直保留结果,直到一切都完成了,并且只在最后写入文件。这意味着对于大文件,它最终会占用大量内存。我正在谈论这个版本(链接到它,因为要在此处粘贴很多代码)。

为了解决这个问题,我将其重构为生产者/消费者模式(或至少尝试过)。在这里,我首先通过组合两个输入文件来制作作业,并将它们放入消费者处理的队列(计算模糊匹配分数)。完成的作业将放入出队列。然后,我只有一个过程从此队列中抓取已完成的项目并将它们写入文件。这样,从理论上讲,我不需要那么多的内存,因为结果将被刷新到磁盘上。似乎工作正常,但速度慢得多。我还注意到,在Mac OSX上查看"活动监视器"时,我正在生成的4个进程似乎并没有用完100%的CPU(Pool.map()版本不是这种情况)。

我注意到的另一件事是,我的生产者功能似乎正确填充了队列,但是使用者进程似乎要等到队列被填充,而不是等到第一项到达后才开始工作。我可能在那儿做错了...

作为参考,这里是Queue版本的一些相关代码(尽管最好查看上面链接中的repo中的完整代码)。

这是我的生产者函数:

def combine(list1, list2):

'''

Combine every item of list1 with every item of list 2,

normalize put the pair in the job queue.

'''

pname = multiprocessing.current_process().name

for x in list1:

for y in list2:

# slugify is a function to normalize the strings

term1 = slugify(x.strip(), separator=' ')

term2 = slugify(y.strip(), separator=' ')

job_queue.put_nowait([term1, term2])

这是writer函数:

def writer(writer_queue):

out = open(file_out, 'wb')

pname = multiprocessing.current_process().name

out.write(header)

for match in iter(writer_queue.get,"STOP"):

print("%s is writing %s") % (pname, str(match))

line = str(';'.join(match) + '

')

out.write(line)

out.close()

这是执行实际计算的辅助函数(从代码中摘录了大部分代码,因为在这里没有什么区别,完整的源代码在仓库中):

def score_it(job_queue, writer_queue):

'''Calculate scores for pair of words.'''

pname = multiprocessing.current_process().name

for pair in iter(job_queue.get_nowait,"STOP"):

# do all the calculations and put the result into the writer queue

writer_queue.put(result)

这是我设置流程的方式:

# Files

to_match = open(args.file_to_match).readlines()

source_list = open(args.file_to_be_matched).readlines()

workers = 4

job_queue = multiprocessing.Manager().Queue()

writer_queue = multiprocessing.Manager().Queue()

processes = []

print('Start matching with"%s", minimum score of %s and %s workers') % (

args.algorithm, minscore, workers)

# Fill up job queue

print("Filling up job queue with term pairs...")

c = multiprocessing.Process(target=combine, name="Feeder", args=(to_match, source_list))

c.start()

c.join()

print("Job queue size: %s") % job_queue.qsize()

# Start writer process

w = multiprocessing.Process(target=writer, name="Writer", args=(writer_queue,))

w.start()

for w in xrange(workers):

p = multiprocessing.Process(target=score_it, args=(job_queue, writer_queue))

p.start()

processes.append(p)

job_queue.put("STOP")

for p in processes:

p.join()

writer_queue.put("STOP")

我在这里已经读到了很多有关多处理有时会变慢的信息??,我知道这与创建和管理新流程的开销有关。同样,当要完成的工作不够"庞大"时,可能看不到多处理的效果。但是在这种情况下,我认为工作量很大,而且Pool.map()版本似乎证明了这一点,因为它的速度要快得多。

在管理所有这些进程并传递队列对象时,我做错什么了吗?如何对其进行优化,以便在处理结果时将其写入文件,以最大程度地减少运行文件时所需的内存量?

谢谢!

我不知道基于队列的系统的性能如何(我看起来还不是很辛苦),但是要解决基于pool版本的内存消耗问题,您可以尝试使用pool.imap来获得迭代器收益由工作进程计算的结果值。在您的map代码中,只需将imap换为map,然后将pool.close和pool.join调用移到写出结果的循环下,您可能会被设置!

非常感谢您的建议,您的解决方案确实解决了内存问题。使用imap,每个进程占用的空间不到100mb,使用map时,每个进程的空间高达1GB。但是它变慢了-在我的测试数据上,使用imap可以得到34秒(而使用map则需要13秒)。知道为什么会这样吗?

它可能与chunksize参数有关。如果我理解正确,默认情况下map使用的块比imap大,如果要映射的序列很长,则可以大大减少开销。

我如何找到理想的块大小来优化性能?谢谢!

ID建议您在不耗尽内存的情况下使用尽可能大的块大小。当然,最大的收益可能会提早出现(从chunksize=1的默认值增加到chunksize=100),但是开销越大,开销就应该越少。 map方法计算与math.ceil(len(iterable) 4.0 cpu_count()))等效的默认块大小,因此也可以从imap开始。

通过测试更大的数据,我发现在速度和内存方面,最大为100的块大小(至少对于此用例而言)提供了最佳结果。额外的进程仅需3MB。使用您建议的公式,每个进程占用太多内存(同样,在我的用例中)。尽管主要过程仍然使用很多(接近1GB),但这可能是因为Im计算了将近一千万个项目的大列表并将其保留在内存中。我仍然找不到通过懒惰的生成器而不是简单列表使用map()的方法...

我认为您的计时问题是您的多线程队列版本缺少优化。您发表的评论实质上是在工作线程开始从中获取作业之前,您的job_queue已填满。我相信这样做的原因是您在#Fill up job queue中具有c.join()。这样可以防止主线程继续执行直到作业队列已满。我将c.join()移到p.join()之后。您还需要找出一种将停止标志放入队列末尾的方法。合并功能可能是放置此内容的好地方。在数据用完后要合并后,添加x个停止标志的方法。

需要注意的另一件事:

您正在开始于p进程的for循环范围内覆盖w变量。作为样式/可读性/等问题,我将w更改为其他变量名称。如果您不使用它,则下划线可以作为一个很好的一次性变量名。

for w in xrange(workers):

应该成为

for _ in xrange(workers):

长话短说,如果将c.join()移至末尾,则应该获得更准确的计时。当前,唯一的多线程处理是字符串的模糊匹配。拥有生产者/消费者线程的优点之一是,消费者线程不必等到生产者线程完成后,因此最终将使用较少的内存。

谢谢你的提示!最后加入"求职者"程序是有道理的……我想我仍然对join()实际所做的事情感到困惑,现在对我来说很清楚。我仍然不太了解您的建议:"您还需要找出一种将停止标志放入队列末尾的方法。Combine函数可能是放置此标记的好地方。类似添加x的方法数据用完后停止标志的数量。" -你到底是什么意思?为什么x个停止标志?以及如何检测到我没有其他数据要合并?

由于您的数据来自文件,因此只要文件用完,便知道您没有其他数据可以合并。您的使用者线程将需要某种信号来知道何时关闭,从而实现"停止"标志。每当使用者线程将作业从队列中拉出且其状态为" STOP"或"无"或类似情况(您必须选择最适合您的应用程序的线程)时,线程便知道它可以关闭。我如何在类似的应用程序上执行此操作,这是我的生产者线程,一旦完成创建作业,就会产生等于使用者线程数量的停止标志。

python 性能并不慢_关于性能:Python多处理队列比pool.map慢相关推荐

  1. python实现电影推荐系统_[转]使用Python MrJob的MapReduce实现电影推荐系统

    最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop Streaming在Hadoop上跑.对于一般的Hadoop而言,如果任务需要大量的 ...

  2. python垃圾回收价格表_深度解析Python垃圾回收机制(超级详细)

    我们知道,目前的计算机都采用的是图灵机架构,其本质就是用一条无限长的纸带,对应今天的存储器.随后在工程学的推演中,逐渐出现了寄存器.易失性存储器(内存)以及永久性存储器(硬盘)等产品.由于不同的存储器 ...

  3. python哪个方向简单_现在学Python,哪个方向最简单?哪个方向最吃香 ?

    " 我想学Python,但是学完Python后都能干啥 ?" " 现在学Python,哪个方向最简单?哪个方向最吃香?" " -- " 相信 ...

  4. python深入和扩展_加速方案 — Python扩展模块

    原标题:加速方案 - Python扩展模块 ctypes(一)- 初识 这章我们介绍Python的扩展名之ctypes,教大家认识ctypes.喜欢Python的读者们可以加Python学习交流群:5 ...

  5. python模块下载过程_常用的python模块及安装方法

    bsddb3:BerkeleyDB的连接组件 Cheetah-1.0:我比较喜欢这个版本的cheetah cherrypy:一个WEB framework ctypes:用来调用动态链接库 DBUti ...

  6. 做python的心得体会_实训python的心得体会

    如何学习Python的一些总结 C++.Java乃至C#都可以看做是同一类型的语言:C++还算灵活,但纷繁复杂的语法使得生产效率低下,Java提高了生产效率,却损失了灵活性;C#算是在生产效率和灵活性 ...

  7. python gil全局锁_什么是Python全局解释器锁(GIL)?

    python gil全局锁 The Python Global Interpreter Lock or GIL, in simple words, is a mutex (or a lock) tha ...

  8. python绝技 pdf 中文_虫术Python绝技 PDF 完整版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.Python爬虫方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小230.8 MB,梁睿坤编写,目前豆瓣.亚马 ...

  9. python定义数组大小_请问在python数组要先定义长度吗?

    视情况而定 若数组是追加一个元素的可以不用定义长度: 若初始化一个列表然后要修改其中的值的话,就要定义长度了. 例: 拓展资料 设计定位 Python的设计哲学是"优雅".&quo ...

最新文章

  1. Android调用远程Service的参数和返回值都需要实现Parcelable接口
  2. linux 用户态与内核态通信方式简介
  3. c语言课程设计走迷宫游戏,C语言课程设计-迷宫游戏.doc
  4. vs2010安装AnkhSVN,但是不起作用解决方法
  5. 微处理器含有高速缓存和什么_天天说芯片,芯片到底是什么?
  6. java.lang.String 的 + 号操作,这个谜终于要解开了!
  7. python调用api做用户登录认证_(二)Python调用Zabbix api之从入门到放弃——登录并获取身份验证令牌...
  8. Activity启动模式 launchMode
  9. AT1983-[AGC001E]BBQ Hard【dp,组合数学】
  10. 音频放大电路_低音升压功率放大器电子电路的完整设计
  11. 面试题17: 打印从1到最大的n位数
  12. 31 GroupSock(AddressString)——live555源码阅读(四)网络
  13. python qt 按钮实现拖放_[Python自学] PyQT5-控件拖拽、剪切板
  14. visual studio运行时库MT、MTd、MD、MDd的区别
  15. pdfFactory Pro的打印首选项设置
  16. xfs文件系统修复-xfs_repair
  17. 关于Bmob的一些浅述
  18. 数据价值应用——数据分析
  19. (3)riak_core系统的工作方式
  20. java 连接不上数据库

热门文章

  1. 贪吃蛇游戏(面向对象)
  2. HTTP--基础--06--Header--请求
  3. aspx repeater 用法_ASP.NET笔记之 Repeater的使用
  4. Python Prim 算法 生成迷宫
  5. JTAG接口的结构和时序分析
  6. 【电商系列】Python之Ebay超值特价的获取
  7. 站在男生立场评女生的各种拒绝法
  8. AXI协议(3):AXI架构的握手机制和实现细节
  9. 英语偏旁部首---学英语事半功倍
  10. Mac 下载安装go之后 go version显示zsh: command not found: go