python requests 异步调用_构建高效的python requests长连接池详解

前文：

最近在搞全网的CDN刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种各别问题就懒得改动了。现在开发的缓存刷新系统，对于性能还是有些敏感的，我后面会给出最优的http长连接池构建方式。

老生常谈：

python下的httpclient库哪个最好用？我想大多数人还是会选择requests库的。原因么？也就是简单，易用！

如何蛋疼的构建reqeusts的短连接请求:

python requests库默认就是长连接的 (http 1.1, Connection: keep alive)，如果单纯在requests头部去掉Connection是不靠谱的，还需要借助httplib来配合.

s = requests.Session()

del s.headers['Connection']

正确发起 http 1.0的请求姿势是:

#xiaorui.cc

import httplib

import requests

httplib.HTTPConnection._http_vsn = 10

httplib.HTTPConnection._http_vsn_str = 'HTTP/1.0'

r = requests.get('http://127.0.0.1:8888/')

服务端接收的http包体内容:

GET / HTTP/1.0

Accept-Encoding: gzip, deflate

Accept: */*

User-Agent: python-requests/2.5.1 CPython/2.7.10 Darwin/15.4.0

所谓短连接就是发送 HTTP 1.0 协议，这样web服务端当然会在send完数据后，触发close()，也就是传递 \0 字符串，达到关闭连接！这里还是要吐槽一下，好多人天天说系统优化，连个基本的网络io都不优化，你还想干嘛。。。下面我们依次聊requests长连接的各种问题及性能优化。

那么requests长连接如何实现？

requests给我们提供了一个Session的长连接类，他不仅仅能实现最基本的长连接保持，还会附带服务端返回的cookie数据。在底层是如何实现的？

把HTTP 1.0 改成 HTTP 1.1 就可以了，如果你标明了是HTTP 1.1 ，那么有没有 Connection: keep-alive 都无所谓的。如果 HTTP 1.0加上Connection: keep-alive ，那么server会认为你是长连接。就这么简单！

poll([{fd=5, events=POLLIN}], 1, 0) = 0 (Timeout)

sendto(5, "GET / HTTP/1.1\r\nHost: www.xiaorui.cc\r\nConnection: keep-alive\r\nAccept-Encoding: gzip, deflate\r\nAccept: */*\r\nUser-Agent: python-requests/2.9.1\r\n\r\n", 144, 0, NULL, 0) = 144

fcntl(5, F_GETFL) = 0x2 (flags O_RDWR)

fcntl(5, F_SETFL, O_RDWR) = 0

Session的长连接支持多个主机么？也就是我在一个服务里先后访问 a.com, b.com, c.com 那么requests session能否帮我保持连接 ?

答案很明显，当然是可以的！

但也仅仅是可以一用，但他的实现有很多的槽点。比如xiaorui.cc的主机上还有多个虚拟主机，那么会出现什么情况么？会不停的创建新连接，因为reqeusts的urllib3连接池管理是基于host的，这个host可能是域名，也可能ip地址，具体是什么，要看你的输入。

strace -p 25449 -e trace=connect

Process 25449 attached - interrupt to quit

connect(13, {sa_family=AF_INET, sin_port=htons(80), sin_addr=inet_addr("61.216.13.196")}, 16) = 0

connect(8, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("10.202.72.116")}, 16) = 0

connect(8, {sa_family=AF_INET, sin_port=htons(80), sin_addr=inet_addr("125.211.204.141")}, 16) = 0