本文作者为 Michael Driscoll,是其新书 Python 201 的一节。本文译者为 linkcheng,由EarlGrey@编程派校对。

译者简介:linkcheng,专业电子信息工程。已有两年工作经验,从事 c/c++ 开发。

Threading模块从 Python 1.5.2 版开始出现,用于增强底层的多线程模块thread。Threading 模块让操作多线程变得更简单,并且支持程序同时运行多个操作。

注意,Python 中的多线程最好用于处理有关 I/O 的操作,如从网上下载资源或者从本地读取文件或者目录。如果你要做的是 CPU 密集型操作,那么你需要使用 Python 的multiprocessing模块。这样做的原因是,Python 有一个全局解释器锁 (GIL),使得所有子线程都必须运行在同一个主线程中。正因为如此,当你通过多线程来处理多个 CPU 密集型任务时,你会发现它实际上运行的更慢。因此,我们将重点放在那些多线程最擅长的领域:I/O 操作!

线程简介

多线程能让你像运行一个独立的程序一样运行一段长代码。这有点像调用子进程(subprocess),不过区别是你调用的是一个函数或者一个类,而不是独立的程序。在我看来,举例说明更有助于解释。下面来看一个简单的例子:

import threading

def doubler(number):"""可以被线程使用的一个函数"""print(threading.currentThread.getName + '')print(number * 2)print

if __name__ == '__main__':for i in range(5):my_thread = threading.Thread(target=doubler, args=(i,))my_thread.start

这里,我们导入 threading 模块并且创建一个叫 doubler的常规函数。这个函数接受一个值,然后把这个值翻一番。它还会打印出调用这个函数的线程的名称,并在最后打印一行空行。然后在代码的最后一块,我们创建五个线程并且依次启动它们。在我们实例化一个线程时,你会注意到,我们把 doubler 函数传给target参数,同时也给 doubler 函数传递了参数。Args参数看起来有些奇怪,那是因为我们需要传递一个序列给 doubler 函数,但它只接受一个变量,所以我们把逗号放在尾部来创建只有一个参数的序列。

需要注意的是,如果你想等待一个线程结束,那么需要调用 join方法。

当你运行以上这段代码,会得到以下输出内容:

Thread-1

0

Thread-2

2

Thread-3

4

Thread-4

6

Thread-5

8

当然,通常情况下你不会希望输出打印到标准输出。如果不幸真的这么做了,那么最终的显示效果将会非常混乱。你应该使用 Python 的 logging 模块。它是线程安全的,并且表现出色。让我们用 logging模块修改上面的例子并且给我们的线程命名。代码如下:

import loggingimport threading

def get_logger:logger = logging.getLogger("threading_example")logger.setLevel(logging.DEBUG)

fh = logging.FileHandler("threading.log")fmt = '%(asctime)s - %(threadName)s - %(levelname)s - %(message)s'formatter = logging.Formatter(fmt)fh.setFormatter(formatter)

logger.addHandler(fh)return logger

def doubler(number, logger):"""可以被线程使用的一个函数"""logger.debug('doubler function executing')result = number * 2logger.debug('doubler function ended with: {}'.format(result))

if __name__ == '__main__':logger = get_loggerthread_names = ['Mike', 'George', 'Wanda', 'Dingbat', 'Nina']for i in range(5):my_thread = threading.Thread(target=doubler, name=thread_names[i], args=(i,logger))my_thread.start

代码中最大的改变就是加入了 get_logger函数。这段代码将创建一个被设置为调试级别的日志记录器。它将日志保存在当前目录(即脚本运行所在的目录)下,然后设置每行日志的格式。格式包括时间戳、线程名、日志记录级别以及日志信息。

在 doubler 函数中,我们把 print语句换成 logging 语句。你会注发现,在创建线程时,我们给 doubler 函数传入了 logger 对象。这样做的原因是,如果在每个线程中实例化 logging 对象,那么将会产生多个 logging 单例(singleton),并且日志中将会有很多重复的内容。

最后,创建一个名称列表,然后使用 name关键字参数为每一个线程设置具体名称,这样就可以为线程命名。运行以上代码,将会得到包含以下内容的日志文件:

2016-07-24 20:39:50,055 - Mike - DEBUG - doubler function executing2016-07-24 20:39:50,055 - Mike - DEBUG - doubler function ended with: 02016-07-24 20:39:50,055 - George - DEBUG - doubler function executing2016-07-24 20:39:50,056 - George - DEBUG - doubler function ended with: 22016-07-24 20:39:50,056 - Wanda - DEBUG - doubler function executing2016-07-24 20:39:50,056 - Wanda - DEBUG - doubler function ended with: 42016-07-24 20:39:50,056 - Dingbat - DEBUG - doubler function executing2016-07-24 20:39:50,057 - Dingbat - DEBUG - doubler function ended with: 62016-07-24 20:39:50,057 - Nina - DEBUG - doubler function executing2016-07-24 20:39:50,057 - Nina - DEBUG - doubler function ended with: 8

输出结果不言自明,所以继续介绍其他内容。在本节中再多说一点,即通过继承 threading.Thread实现多线程。举最后一个例子,通过继承 threading.Thread 创建子类,而不是直接调用 Thread 函数。

更新后的代码如下:

import loggingimport threading

class MyThread(threading.Thread):def __init__(self, number, logger):threading.Thread.__init__(self)self.number = numberself.logger = logger

def run(self):"""运行线程"""logger.debug('Calling doubler')doubler(self.number, self.logger)

def get_logger:logger = logging.getLogger("threading_example")logger.setLevel(logging.DEBUG)

fh = logging.FileHandler("threading_class.log")fmt = '%(asctime)s - %(threadName)s - %(levelname)s - %(message)s'formatter = logging.Formatter(fmt)fh.setFormatter(formatter)

logger.addHandler(fh)return logger

def doubler(number, logger):"""可以被线程使用的一个函数"""logger.debug('doubler function executing')result = number * 2logger.debug('doubler function ended with: {}'.format(result))

if __name__ == '__main__':logger = get_loggerthread_names = ['Mike', 'George', 'Wanda', 'Dingbat', 'Nina']for i in range(5):thread = MyThread(i, logger)thread.setName(thread_names[i])thread.start

这个例子中,我们只是创建一个继承于 threading.Thread的子类。像之前一样,传入一个需要翻一番的数字,以及 logging 对象。但是这次,设置线程名称的方式有点不太一样,变成了通过调用 thread 对象的setName方法来设置。不过仍然需要调用start来启动线程,不过你可能注意到我们并不需要在子类中定义该方法。当调用start时,它会通过调用run方法来启动线程。在我们的类中,我们调用 doubler 函数来做处理。输出结果中除了一些添加的额外信息内容几乎差不多。运行下这个脚本,看看你会得到什么。

线程锁与线程同步

当你有多个线程,就需要考虑怎样避免线程冲突。我的意思是说,你可能遇到多个线程同时访问同一资源的情况。如果不考虑这些问题并且制定相应的解决方案,那么在开发产品过程中,你总会在最糟糕的时候遇到这些棘手的问题。

解决办法就是使用线程锁。锁由 Python 的 threading 模块提供,并且它最多被一个线程所持有。当一个线程试图获取一个已经锁在资源上的锁时,该线程通常会暂停运行,直到这个锁被释放。来让我们看一个非常典型没有却应具备锁功能的例子:

import threading

total = 0

def update_total(amount):"""Updates the total by the given amount"""global totaltotal += amountprint (total)if __name__ == '__main__':for i in range(10):my_thread = threading.Thread(target=update_total, args=(5,))my_thread.start

如果往以上代码添加 time.sleep函数并给出不同长度的时间,可能会让这个例子更有意思。无论如何,这里的问题是,一个线程可能已经调用update_total函数并且还没有更新完成,此时另一个线程也有可能调用它并且尝试更新内容。根据操作执行顺序的不同,该值可能只被增加一次。

让我们给这个函数添加锁。有两种方法可以实现。第一种方式是使用 try/finally,从而确保锁肯定会被释放。下面是示例:

import threading

total = 0

lock = threading.Lockdef update_total(amount):"""Updates the total by the given amount"""global totallock.acquiretry:total += amountfinally:lock.releaseprint (total)

if __name__ == '__main__':for i in range(10):my_thread = threading.Thread(target=update_total, args=(5,))my_thread.start

如上,在我们做任何处理之前就获取锁。然后尝试更新 total 的值,最后释放锁并打印出 total 的当前值。事实上,我们可以使用 Python 的 with语句避免使用 try/finally 这种较为繁琐的语句:

import threading

total = 0

lock = threading.Lock

def update_total(amount):"""Updates the total by the given amount"""global totalwith lock:total += amountprint (total)

if __name__ == '__main__':for i in range(10):my_thread = threading.Thread(target=update_total, args=(5,))my_thread.start

正如你看到的那样,我们不再需要 try/finally作为上下文管理器,而是由with语句作为替代。

当然你也会遇到要在代码中通过多个线程访问多个函数的情况。当你第一次编写并发代码时,代码可能是这样的:

import threading

total = 0

lock = threading.Lockdef do_something:lock.acquiretry:print('Lock acquired in the do_something function')finally:lock.releaseprint('Lock released in the do_something function')return "Done doing something"

def do_something_else:lock.acquiretry:print('Lock acquired in the do_something_else function')finally:lock.releaseprint('Lock released in the do_something_else function')return "Finished something else"

if __name__ == '__main__':result_one = do_somethingresult_two = do_something_else

这样的代码在上面的情况下能够正常工作,但假设你有多个线程都调用这两个函数呢。当一个线程正在运行这两个函数,然后另外一个线程也可能会修改这些数据,最后得到的就是不正确的结果。问题是,你甚至可能没有马上意识到结果错了。有什么解决办法呢?让我们试着找出答案。

通常首先想到的就是在调用这两个函数的地方上锁。让我们试着修改上面的例子,修改成如下所示:

import threading

total = 0

lock = threading.RLockdef do_something:

with lock:print('Lock acquired in the do_something function')print('Lock released in the do_something function')return "Done doing something"

def do_something_else:with lock:print('Lock acquired in the do_something_else function')print('Lock released in the do_something_else function')return "Finished something else"

def main:with lock:result_one = do_somethingresult_two = do_something_elseprint (result_one)print (result_two)

if __name__ == '__main__':main

当你真正运行这段代码时,你会发现它只是挂起了。究其原因,是因为我们只告诉 threading 模块获取锁。所以当我们调用第一个函数时,它发现锁已经被获取,随后便把自己挂起了,直到锁被释放,然而这将永远不会发生。

真正的解决办法是使用重入锁(Re-Entrant Lock)。threading 模块提供的解决办法是使用RLock函数。即把lock = threading.lock替换为lock = threading.RLock,然后重新运行代码,现在代码就可以正常运行了。

如果你想在线程中运行以上代码,那么你可以用以下代码取代直接调用 main函数:

if __name__ == '__main__':for i in range(10):my_thread = threading.Thread(target=main)my_thread.start

每个线程都会运行 main 函数,main 函数则会依次调用另外两个函数。最终也会产生 10 组结果集。

定时器

Threading 模块有一个优雅的 Timer类,你可以用它来实现在指定时间后要发生的动作。它们实际上会启动自己的自定义线程,通过调用常规线程上的start方法即可运行。你也可以调用它的cancel方法停止定时器。值得注意的是,你甚至可以在开始定时器之前取消它。

有一天,我遇到一个特殊的情况:我需要与已经启动的子进程通信,但是我需要它有超时处理。虽然处理这种特殊问题有很多不同的方法,不过我最喜欢的解决方案是使用 threading 模块的 Timer 类。

在下面这个例子中,我们将使用 ping指令作为演示。在 Linux 系统中,ping 命令会一直运行下去直到你手动杀死它。所以在 Linux 世界里,Timer 类就显得非常方便。示例如下:

import subprocessfrom threading import Timer

kill = lambda process: process.killcmd = ['ping', 'www.google.com']ping = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)

my_timer = Timer(5, kill, [ping])try:my_timer.startstdout, stderr = ping.communicatefinally:my_timer.cancelprint (str(stdout))

这里我们在 lambda 表达式中调用 kill 杀死进程。接下来启动 ping 命令,然后创建 Timer 对象。你会注意到,第一个参数就是需要等待的秒数,第二个参数是需要调用的函数,紧跟其后的参数是要调用函数的入参。在本例中,我们的函数是一个 lambda 表达式,传入的是一个只有一个元素的列表。如果你运行这段代码,它应该会运行 5 秒钟,然后打印出 ping 的结果。

其他线程组件

Threading 模块包含对其他功能的支持。例如,你可以创建信号量(Semaphore),这是计算机科学中最古老的同步原语之一。基本上,一个信号量管理一个内置的计数器。当你调用acquire时计数器就会递减,相反当你调用release时就会递增。根据其设计,计数器的值无法小于零,所以如果正好在计数器为零时调用 acquire 方法,该方法将阻塞线程。

译者注:通常使用信号量时都会初始化一个大于零的值,如 semaphore = threading.Semaphore(2)

另一个非常有用的同步工具就是事件(Event)。它允许你使用信号(signal)实现线程通信。在下一节中我们将举一个使用事件的实例。

最后,在 Python 3.2 中加入了 Barrier对象。Barrier 是管理线程池中的同步原语,在线程池中多条线程需要相互等待对方。如果要传递 barrier,每一条线程都要调用wait方法,在其他线程调用该方法之前线程将会阻塞。全部调用之后将会同时释放所有线程。

线程通信

某些情况下,你会希望线程之间互相通信。就像先前提到的,你可以通过创建 Event对象达到这个目的。但更常用的方法是使用队列(Queue)。在我们的例子中,这两种方式都会有所涉及。下面让我们看看到底是什么样子的:

import threadingfrom queue import Queue

def creator(data, q):"""生成用于消费的数据,等待消费者完成处理"""print('Creating data and putting it on the queue')for item in data:evt = threading.Eventq.put((item, evt))

print('Waiting for data to be doubled')evt.wait

def my_consumer(q):"""消费部分数据,并做处理

这里所做的只是将输入翻一倍

"""while True:data, evt = q.getprint('data found to be processed: {}'.format(data))processed = data * 2print(processed)evt.setq.task_done

if __name__ == '__main__':q = Queuedata = [5, 10, 13, -1]thread_one = threading.Thread(target=creator, args=(data, q))thread_two = threading.Thread(target=my_consumer, args=(q,))thread_one.startthread_two.start

q.join

让我们掰开揉碎分析一下。首先,我们有一个创建者(creator)函数(亦称作生产者(producer)),我们用它来创建想要操作(或者消费)的数据。然后用另外一个函数 my_consumer来处理刚才创建出来的数据。Creator 函数使用 Queue 的put方法向队列中插入数据,消费者将会持续不断的检测有没有更多的数据,当发现有数据时就会处理数据。Queue 对象处理所有的获取锁和释放锁的过程,这些不用我们太关心。

在这个例子中,先创建一个列表,然后创建两个线程,一个用作生产者,一个作为消费者。你会发现,我们给两个线程都传递了 Queue 对象,这两个线程隐藏了关于锁处理的细节。队列实现了数据从第一个线程到第二个线程的传递。当第一个线程把数据放入队列时,同时也传递一个 Event 事件,紧接着挂起自己,等待该事件结束。在消费者侧,也就是第二个线程,则做数据处理工作。当完成数据处理后就会调用 Event 事件的 set方法,通知第一个线程已经把数据处理完毕了,可以继续生产了。

最后一行代码调用了 Queue 对象的 join方法,它会告知 Queue 等待所有线程结束。当第一个线程把所有数据都放到队列中,它也就运行结束了。

结束语

以上涵盖了关于线程的诸多方面,主要包括:

  • 线程基础知识

  • 锁的工作方式

  • 什么是事件以及如何使用

  • 如何使用定时器

  • 通过 Queues/Events 实现线程间通信

现在你们知道如何使用线程以及线程擅长什么了,希望在你们的代码中能有它们的用武之地

末送书活动

活动规则大家请一定要查看,点击这篇推文哦:从今天起,每天至少送大家一本书

这篇推文的福利赠书是:《Python 数据科学入门》,送给本篇文章点赞最多、且符合活动要求的精选留言者。

题图:pexels,CC0 授权。

c 多线程运行混乱_一篇文章读懂 Python 多线程相关推荐

  1. java多线程 模型_一篇文章读懂Java多线程模型

    要真正了解Java的多线程,我们还要从进程和线程的概念说起 进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础.在早期 ...

  2. python 闭包_一篇文章读懂Python的闭包与装饰器!

    什么是装饰器? 装饰器(Decorator)相对简单,咱们先介绍它:"装饰器的功能是将被装饰的函数当作参数传递给与装饰器对应的函数(名称相同的函数),并返回包装后的被装饰的函数", ...

  3. axi4协议的乱序_一篇文章读懂读透FPGA AXI4 总线协议

    新一代FPGA中采用的基本都是AXI4总线协议,例如与slaver侧的DMA或DDR等通信.这篇讲AXI4的文章感觉讲的很清楚. 0.绪论AXI是高级扩展接口,在AMBA3.0中提出,AMBA4.0将 ...

  4. python iterable对象_一篇文章看懂 Python iterable,

    Python 中的 iterable, iterator 以及 generator,一直是非常亲密但是难以区分的概念.nvie 有一个很好的 帖子阐述了它们之间的关系,但是内容偏向于概括和总结,对于新 ...

  5. python 结构体数组 定义_一篇文章弄懂Python中所有数组数据类型

    前言 数组类型是各种编程语言中基本的数组结构了,本文来盘点下Python中各种"数组"类型的实现. list tuple array.array str bytes bytearr ...

  6. bytes数组转string指定编码_一篇文章弄懂Python中所有数组数据类型

    前言 数组类型是各种编程语言中基本的数组结构了,本文来盘点下Python中各种"数组"类型的实现. list tuple array.array str bytes bytearr ...

  7. python装饰器函数执行后日志_一篇文章搞懂Python装饰器所有用法

    如果你接触 Python 有一段时间了的话,想必你对 @ 符号一定不陌生了,没错 @ 符号就是装饰器的语法糖. 它放在一个函数开始定义的地方,它就像一顶帽子一样戴在这个函数的头上.和这个函数绑定在一起 ...

  8. 一篇文章读懂MySQL的各种联合查询

    一篇文章读懂MySQL的各种联合查询 联合查询是指将两个或两个以上的表的数据根据一定的条件合并在一起! 联合查询主要有以下几种方式: 全连接:将一张表的数据与另外一张表的数据彼此交叉联合查询出来 举例 ...

  9. 一篇文章读懂“天猫无货源店群”,这是一个怎么样的项目?

    这是个什么样的项目?(有经验的人可以自动跳过) 天猫店群,一种通过盗取他人天猫店铺内的产品,来进行盈利的电商操作模式,因为不需要我们自己有货,所以被也被称为无货源模式.在天猫上操作就叫天猫无货源店群, ...

最新文章

  1. IsPostBack的使用
  2. 博客园模板 样式优化
  3. 关于怎么将Quartus和Nios程序一起固化到FPGA里面
  4. vue如何使用原生js写动画效果_原生js写一个无缝轮播图插件(支持vue)
  5. 科大讯飞 ai算法挑战赛_为井字游戏挑战构建AI算法
  6. 系统mysql数据库服务器,系统mysql数据库服务器
  7. 详细介绍android rom移植知识普及
  8. VR 、AR 谁让你眼前一亮
  9. 《Linux内核设计与实现》学习笔记之“Linux进程管理机制”
  10. JUnit4(三)高级之 assertThat和Matchers (匹配器)
  11. 用显卡加速c语言程序,教程 | 如何在Julia编程中实现GPU加速
  12. 研究私域玩法?你可以试试拼团模式
  13. Kubernetes 学习路径
  14. 【南宋】【文天祥】正气歌
  15. 「津津乐道播客」#301 这是一期价值3000元的当代社畜科学点餐指南
  16. android 图片裁剪库,(译)uCrop介绍 —— 我们自己的Android图片裁剪库
  17. JAVA配置多源数据库
  18. pc客户端网易云部分电台节目播放过程中声音消失的问题
  19. python使用ddt_python数据驱动ddt的使用
  20. wps打包exe文件_如何使用PTEmaker将PPT打包为exe可执行文件(图文)

热门文章

  1. full calendar mysql_fullcalendar 及mysql数据库的工作日管理
  2. win10下硬盘安装CentOS7
  3. DOS文件转换成UNIX文件格式详解
  4. Linux下redis的安装
  5. Magento中如何在模块中使用多张数据表并配置多个model?
  6. 单身程序猿适合找单身程序媛吗?
  7. 一个不错的安卓下ssh客户端
  8. Jenkins Mac安装更改用户名
  9. 史上自定义 JavaScript 函数Top 10
  10. MySQL基础篇:设置大小写不敏感