python queue 多线程_Python如何实现并行的多线程?
如果大家在学习中遇到困难,想找一个python学习交流环境,可以点击下方加入我们一起学习,欢迎零基础和大佬加入正在跳转jq.qq.com
有关Python问题都可以给我留言喔
接下来说正事,如果待处理任务满足:可拆分,即任务可以被拆分为多个子任务,或任务是多个相同的任务的集合;
任务不是CPU密集型的,如任务涉及到较多IO操作(如文件读取和网络数据处理)
则使用多线程将任务并行运行,能够提高运行效率。
假设待处理的任务为:有很多文件目录,对于每个文件目录,搜索匹配一个给定字符串的文件的所有行(相当于是实现grep的功能)。 则此处子任务为:给定一个目录,搜索匹配一个给定字符串的文件的所有行。总的任务为处理所有目录。
将子任务表示为一个函数T,如下所示:
def T(dir, pattern):
print('searching pattern%sin dir%s' % (pattern, dir))
...
为每个子任务创建一个线程
要实现并行化,最简单的方法是为每一个子任务创建一个thread,thread处理完后退出。
from threading import Thread
from time import sleep
def T(dir, pattern): "This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern%sin dir%s' % (pattern, dir))
threads = []
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello'
for dir in dirs: thread = Thread(target=T, args=(dir, pattern))
1
thread.start()
2
threads.append(thread)
for thread in threads: thread.join()
3
print('Main thread end here')1 :创建一个Thread对象,target参数指定这个thread待执行的函数,args参数指定target函数的输入参数
2 :启动这个thread。 T(dir, pattern)将被调用
3 :等待,直到这个thread结束。整个for循环表示主进程会等待所有子线程结束后再退出程序的运行结果为:
searching pattern hello in dir a/b/csearching pattern hello in dir d/f searching pattern hello in dir b/c searching pattern hello in dir a/b/d Main thread end here
可以看出由于线程是并行运行的,部分输出会交叠。但主进程的打印总在最后。
以上例子中对于每个dir都需要创建一个thread。如果dir的数目较多,则会创建太多的thread,影响运行效率。 较好的方式是限制总线程的数目。
限制线程数目
可以使用信号量(semaphore)来限制同时运行的最大线程数目。如下所示:
from threading import Thread, BoundedSemaphore
from time import sleep
def T(dir, pattern): "This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern%sin dir%s' % (pattern, dir))
threads = []
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello'
maxjobs = BoundedSemaphore(2)
1
def wrapper(dir, pattern): T(dir, pattern)
maxjobs.release()
2
for dir in dirs: maxjobs.acquire()
3
thread = Thread(target=wrapper, args=(dir, pattern))
thread.start()
threads.append(thread)
for thread in threads: thread.join()
print('Main thread end here')1 :创建一个有2个资源的信号量。一个信号量代表总的可用的资源数目,这里表示同时运行的最大线程数目为2。
2 :在线程结束时释放资源。运行在子线程中。
3 :在启动一个线程前,先获取一个资源。如果当前已经有2个线程在运行,则会阻塞,直到其中一个线程结束。 运行在主线程中。当限制了最大运行线程数为2后,由于只有2个线程同时运行,程序的输出更加有序,几乎总是为:
searching pattern hello in dir a/b/c searching pattern hello in dir a/b/d searching pattern hello in dir b/c searching pattern hello in dir d/f Main thread end here
以上实现中为每个子任务创建一个线程进行处理,然后通过信号量限制同时运行的线程的数目。如果子任务很多,这种方法会创建太多的线程。更好的方法 是使用线程池。
使用线程池(THREAD POOL)
即预先创建一定数目的线程,形成一个线程池。每个线程持续处理多个子任务(而不是处理一个就退出)。这样做的好处是:创建的线程数目会比较固定。
那么,每个线程处理哪些子任务呢?一种方法为:预先将所有子任务均分给每个线程。如下所示:
from threading import Thread
from time import sleep
def T(dir, pattern): "This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern%sin dir%s' % (pattern, dir))
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello'
def wrapper(dirs, pattern): 1
for dir in dirs: T(dir, pattern)
threadsPool = [2 Thread(target=wrapper, args=(dirs[0:2], pattern)), Thread(target=wrapper, args=(dirs[2:], pattern)), ]
for thread in threadsPool: 3
thread.start()
for thread in threadsPool: thread.join()
print('Main thread end here')1 :这个函数能够处理多个dir,将作为线程的target函数
2 :创建一个有2个线程的线程池。并事先分配子任务给每个线程。线程1处理前两个dir,线程2处理后两个dir
3 :启动线程池中所有线程
程序的输出结果为:
searching pattern hello in dir a/b/csearching pattern hello in dir b/c searching pattern hello in dir d/f searching pattern hello in dir a/b/d Main thread end here
这种方法存在以下问题:子任务分配可能不均。导致每个线程运行时间差别可能较大,则整体运行时长可能被拖长
只能处理所有子任务都预先知道的情况,无法处理子任务实时出现的情况
如果有一种方法,能够让线程知道当前所有的待处理子任务,线程一旦空闲,便可以从中获取一个任务进行处理,则以上问题都可以解决。任务队列便是解决方案。
使用消息队列
可以使用Queue实现一个任务队列,用于在线程间传递子任务。主线程将所有待处理子任务放置在队列中,子线程从队列中获取子任务去处理。 如下所有(注:以下代码只运行于Python 2,因为Queue只存在于Python 2) :
from threading import Thread
from time import sleep
import Queue
def T(dir, pattern): "This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern%sin dir%s' % (pattern, dir))
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello'
taskQueue = Queue.Queue()
1
def wrapper(): while
True:
try: dir = taskQueue.get(True, 0.1)
2
T(dir, pattern) except Queue.Empty:
continue
threadsPool = [Thread(target=wrapper) for i in range(2)]
3
for thread in threadsPool: thread.start()
4
for dir in dirs: taskQueue.put(dir)
5
for thread in threadsPool: thread.join()
print('Main thread end here')1 :创建一个任务队列
2 :子线程从任务队列中获取一个任务。第一个参数为True,表示如果没有任务,会等待。第二个参数表示最长等待0.1秒 如果在0.1秒后仍然没有任务,则会抛出一个Queue.Empty的异常
3 :创建有2个线程的线程池。注意target函数wrapper没有任何参数
4 :启动所有线程
5 :主线程将所有子任务放置在任务队列中,以供子线程获取处理。由于子线程已经被启动,则子线程会立即获取到任务并处理
程序的输出为:
searching pattern hello in dir a/b/c searching pattern hello in dir a/b/d searching pattern hello in dir b/c searching pattern hello in dir d/f
从中可以看出主进程的打印结果并没有出来,程序会一直运行,而不退出。这个问题的原因是:目前的实现中,子线程为一个无限循环, 因此其永远不会终止。因此,必须有一种机制来结束子进程。
终止子进程
一种简单方法为,可以在任务队列中放置一个特殊元素,作为终止符。当子线程从任务队列中获取这个终止符后,便自行退出。如下所示,使用None作为终止符。
from threading import Thread
from time import sleep
import Queue
def T(dir, pattern): "This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern%sin dir%s' % (pattern, dir))
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello'
taskQueue = Queue.Queue()
def wrapper(): while
True:
try: dir = taskQueue.get(True, 0.1)
if dir is None: 1
taskQueue.put(dir)
2
break
T(dir, pattern) except Queue.Empty:
continue
threadsPool = [Thread(target=wrapper) for i in range(2)]
for thread in threadsPool: thread.start()
for dir in dirs: taskQueue.put(dir)
taskQueue.put(None)
3
for thread in threadsPool: thread.join()
print('Main thread end here')1 :如果任务为终止符(此处为None),则退出
2 :将这个终止符重新放回任务队列。因为只有一个终止符,如果不放回,则其它子线程获取不到,也就无法终止
3 :将终止符放在任务队列。注意必须放置在末尾,否则终止符后的任务无法得到处理
修改过后,程序能够正常运行,主进程能够正常退出了。
searching pattern hello in dir a/b/csearching pattern hello in dir a/b/d searching pattern hello in dir b/c searching pattern hello in dir d/f Main thread end here
总结
要并行化处理子任务,最简单的方法是为每个子任务创建一个线程去处理。这种方法的缺点是:如果子任务非常多,则需要创建的线程数目会非常多。 并且同时运行的线程数目也会较多。通过使用信号量来限制同时运行的线程数目,通过线程池来避免创建过多的线程。
与每个线程处理一个任务不同,线程池中每个线程会处理多个子任务。这带来一个问题:每个子线程如何知道要处理哪些子任务。 一种方法是预先将所有子任务均分给每个线程,而更灵活的方法则是通过任务队列,由子线程自行决定要处理哪些任务。
使用线程池时,线程主函数通常实现为一个无限循环,因此需要考虑如何终止线程。可以在任务队列中放置一个终止符来告诉线程没有更多任务, 因此其可以终止。
如果大家在学习中遇到困难,想找一个python学习交流环境,可以点击下方加入我们一起学习,欢迎零基础和大佬加入正在跳转jq.qq.com
有关Python问题都可以给我留言喔
python queue 多线程_Python如何实现并行的多线程?相关推荐
- python queue函数_Python模块:queue
一.Python queue Python queue模块有三种队列: 1.FIFO队列先进先出. 2.LIFO类似于堆,即先进后出. 3.还有一种是优先级队列级别越低越先出来. 针对这三种队列分别有 ...
- python queue模块_Python的queue模块详解
Queue Queue是python标准库中的线程安全的队列(FIFO)实现,提供了一个适用于多线程编程的先进先出的数据结构,即队列,用来在生产者和消费者线程之间的信息传递 基本FIFO队列 clas ...
- python queue 调试_python:如何创建用于调试的持久内存结构
首先,可以使用以下方法对孔对象的不同部分进行pickle: # gen_objects.py import random import pickle class BigBadObject(object ...
- python queue死锁_Python学习【第24篇】:死锁,递归锁,信号量,Event事件,线程Queue...
一.死锁现象与递归锁 进程也是有死锁的 所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用, 它们都将无法推进下去.此时称系统处于死锁状态或系统 ...
- python queue 调试_Python:Queue.Empty异常处理
在与某人就Python中的异常处理(由队列对象的处理引发)进行了一次简短的辩论之后,我想我应该把它扔掉... 方法1:import Queue q = Queue.Queue() try: task= ...
- python queue 多进程_python中的Queue与多进程(multiprocessing)
最近接触一个项目,要在多个虚拟机中运行任务,参考别人之前项目的代码,采用了多进程来处理,于是上网查了查python中的多进程 一.先说说Queue(队列对象) Queue是python中的标准库,可以 ...
- python中线程里面多线程_Python中的线程和多线程是什么
一.线程的概念 一个进程里面至少有一个控制线程,进程的概念只是一种抽象的概念,真正在CPU上面调度的是进程里面的线程,就好比真正在地铁这个进程里面工作的实际上是地铁里面的线程,北京地铁里面至少要有一个 ...
- python如何使用多线程_python多线程与线程
进程与线程的概念 进程 考虑一个场景:浏览器,网易云音乐以及notepad++ 三个软件只能顺序执行是怎样一种场景呢?另外,假如有两个程序A和B,程序A在执行到一半的过程中,需要读取大量的数据输入(I ...
- python 并行、并发以及多线程的概念 tensorflow图像识别程序多线程并行
并发:在一个时间段,处理多个任务,单核也可以并发(CPU分时间片): 并行:在同一个时刻,处理多个任务,必须多核才能并行: 你吃饭吃到一半,电话来了,你一直到吃完了以后才去接,这就说明你不支持并发也不 ...
最新文章
- OpenCV中OpenCL模块函数
- 基于OpenCV实战的图像处理:色度分割
- R语言使用reshape2包的melt函数将dataframe从宽表到长表(Wide- to long-format)、如果没有指定行标识符号,则所有的字段都会放入variable变量中
- 多分辨率适配—字体大小适配 sp与dp区别
- 工作三年的一点感想(展望篇)
- Qt 编译错误 LINK2001:无法解析的外部符号 public: virtual struct QMetaObject const thiscall Widget::metaObject
- VC++多线程工作笔记0001---认识与创建线程
- ami编码设计流程图_专用设备转向系统电控单元设计
- 2017.11.18
- Mybatis generator 自动生成代码(实例讲解)
- java 环境变量 ln s_java的环境变量
- 如何在桌面添加计算机日历工具,如何在电脑桌面上添加日历小工具?
- IDEA导出jar包步骤
- 心理学推荐书籍——《色眼识人》
- timestamp 与 nonce 防止重放攻击
- 87.3 laravel中常见问题以及解决方案
- Java Web中乱码问题
- eclipse MAVEN插件正确使用方式。
- 0.96寸OLED显示屏介绍
- ogg高版本到低版本同步
热门文章
- Arduino处理STM32中的多个串口通讯问题
- 2021年春季学期-信号与系统-第十一次作业参考答案-第三小题
- 怎么DIY一个粒子检测器
- 如何制定客户留存策略_如何制定品牌营销策略?
- python数据趋势算法_Python数据拟合与广义线性回归算法学习
- 在html游戏里添加计时,如何在计时器上运行后台任务 (HTML)
- .java编写一个梯形类lader_能够完成相关计算above为高_【Java】编写一个应用程序计算梯形和圆形的面积...
- bootstrap项目实例_精选开源SpringBoot项目:涵盖权限、搜索、秒杀、支付!值得学习...
- GT Transceiver的总体架构梳理
- 【Udacity】异常值检测/删除