python3下urllib.request库高级应用之Handle处理器和自定义Opener

python3下urllib.request库高级应用之Handle处理器和自定义Opener

经过前面对urllib.request库的频繁使用,都知道我们使用urllib库请求是都是使用urlopen()方法实现的。实际上它的底层是使用HTTPHandler个Opener来实现的。查看urllib.request库里的urlopen()方法的源码。

def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,

*, cafile=None, capath=None, cadefault=False, context=None):

global _opener

if cafile or capath or cadefault:

if context is not None:

raise ValueError(

"You can't pass both context and any of cafile, capath, and "

"cadefault"

)

if not _have_ssl:

raise ValueError('SSL support not available')

context = ssl.create_default_context(ssl.Purpose.SERVER_AUTH,

cafile=cafile,

capath=capath)

https_handler = HTTPSHandler(context=context)

opener = build_opener(https_handler)

elif context:

https_handler = HTTPSHandler(context=context)

opener = build_opener(https_handler)

elif _opener is None:

_opener = opener = build_opener()

else:

opener = _opener

return opener.open(url, data, timeout)

def install_opener(opener):

global _opener

_opener = opener_url_tempfiles = []

opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。

我们采用urlopen()的方式去请求,其实是有些局限性的,比如我们需要打开debug模式,或通过代理模式去请求,就不行了。如果要实现debug模式或代理请求的话,我们需要自己定义Handler和opener。

可以使用相关的 Handler处理器 来创建特定功能的处理器对象;

然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;

使用自定义的opener对象,调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)

在urllib库中,给我们提供了一些Handler,如:HTTPHandler,HTTPSHandler,ProxyHandler,BaseHandler,AbstractHTTPHandler,FileHandler,FTPHandler,分别用于处理HTTP,HTTPS,Proxy代理等。

例子一: 简单的自定义opener()

import urllib.request

# 第一步:构建一个HTTPHandler 处理器对象,支持处理HTTP请求

http_handler = urllib.request.HTTPHandler()

# 第二步:调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象

opener = urllib.request.build_opener(http_handler)

# 第三步:构建 Request请求

request = urllib.request.Request("http://www.baidu.com/")

# 第四步:调用自定义opener对象的open()方法,发送request请求

response = opener.open(request)

# 第五步:获取服务器响应内容

print(response.read())

程序运行的结果:

这种方式发送请求得到的结果,和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

HTTPHandler的debug模式

HTTPHandler的debug模式,是通过在HTTPHandler的参数中传入debuglevel=1,1表示打开debug模式。0表示关闭,默认是0。:

例子二:HTTPHandler的debug模式

import urllib.request

# 第一步:构建一个HTTPHandler 处理器对象,支持处理HTTP请求,同时开启Debug Log

http_handler = urllib.request.HTTPHandler(debuglevel=1)

# 第二步:调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象

opener = urllib.request.build_opener(http_handler)

# 第三步:构建 Request请求

request = urllib.request.Request("http://www.baidu.com/")

# 第四步:调用自定义opener对象的open()方法,发送request请求

response = opener.open(request)

# 第五步:获取服务器响应内容

print(response.read().decode('utf-8'))

运行结果:

如果在 HTTPHandler()增加 debuglevel=1参数,就会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。

自定义request_python3下urllib.request库之Handle处理器和自定义Opener相关推荐

  1. Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片

    Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片 目录 输出结果 核心代码 输出结果 核心代码 # coding=gbk import urllib.request ...

  2. Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类

    Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类 目录 一. ...

  3. python爬虫用urllib还是reques_Python爬虫之urllib.request库

    爬虫--urllib.request库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.在Python中有很多库可以用来抓取网页,我们先学习urllib.req ...

  4. 使用urllib.request库获取cookie登录

    使用urllib.request库获取cookie登录 一 .使用手动添加cookie的方式来获取页面 二.使用 cookiejar 自动获取登录后获得的cookie 一 .使用手动添加cookie的 ...

  5. python从入门到放弃篇26(lxml.etree库,urllib.request库,构造xpath路径,构造url)实现翻页爬取豆瓣书简介并保存数据

    今天,我研究了构造url和xpath路径的方法实现翻页爬取数据.觉得还可以,不过还是存在一些问题,没有我想的那么理想,因为,目前只实现了爬取每一页的第一本书及其书评.我等有时间会再去研究. 第一步,我 ...

  6. python爬虫(一)urllib.request库学习总结

    一.简单介绍 urllib库:是python的内置请求库,常用于网页的请求访问. 包括以下模块: urllib.request 请求模块 urllib.error 异常处理模块 urllib.pars ...

  7. python request库下载_python3.6 urllib.request库实现简单的网络爬虫、下载图片

    ################################################################# #author: 陈月白 #_blogs: http://www.c ...

  8. python爬虫(四)_urllib2:handle处理器和自定义opener

    opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页,它是一个特殊的opener(也就是模块帮我们建好的),opener是urllib2.Op ...

  9. 9.0自定义SystemUI下拉状态栏和通知栏视图(十七)之自定义通知布局构建

    1.前言 在进行9.0的rom产品定制化开发中,在9.0中针对systemui下拉状态栏和通知栏的定制UI的工作开发中,原生系统的下拉状态栏和通知栏的视图UI在产品开发中会不太满足功能, 所以根据产品 ...

最新文章

  1. VC下通过进程ID获取进程镜像文件路径的方法及其存在的缺陷
  2. Hyperledger Composer评测
  3. 并发编程协程(Coroutine)之Gevent
  4. suse linux 安装oracle,SUSE Linux下安装Oracle 11g服务器
  5. java文件读入原理_描述一下JVM加载class文件的原理机制
  6. oracle不要重复记录,Oracle中去重复记录 不用distinct
  7. 企业靠一套数据平台实现“低成本运营战略”,降低成本600万
  8. 大学生计算机基础清考试卷,天大《计算机网络基础》4月毕业清考作业考核试题模板.doc...
  9. 嵌入式·实时操作系统 xos介绍
  10. 计算机无法共享磁盘分区,win7系统下怎么创建虚拟磁盘分区以达到网络共享的目的...
  11. 我的航拍直升机 控制基站软件的编写历程(2.1)
  12. Android Studio Emulator 报错 detected adb
  13. PCL安装与配置(Windows10+VS2017+pcl1.8.1 )
  14. 树莓派高阶课程7:树莓派博通BCM2835芯片手册导读
  15. Python数据挖掘入门与实践-OneR分类算法
  16. SONY WH-1000XM3 User Guide
  17. 魅族新系统android o,魅族最新系统 Flyme 1.0 for M9 正式版 基于Android 4.0
  18. 【云原生 | Kubernetes 实战】01、K8s-v1.25集群搭建和部署基于网页的 K8s 用户界面 Dashboard
  19. android的A/B到底是什么?OTA升级又是什么?
  20. linux镜像文件太大不好下载_这是什么神仙系统?支持安卓程序 + Windows 程序 + Linux 程序...

热门文章

  1. Kubernetes 必备工具:2021
  2. 某百度程序员中午面试一个阿里程序员,晚上去阿里面试,面试官竟是中午那个人!...
  3. 上周我面了个三年 Javaer,这几个问题都没答出来
  4. 菜鸟实时数仓2.0进阶之路
  5. 从 MySQL 执行原理告诉你:为什么分页场景下,请求速度非常慢?
  6. 嘿嘿,我就知道面试官接下来要问我 ConcurrentHashMap 底层原理了,看我怎么秀他...
  7. 程序员百万年薪进阶指南(一)
  8. 看源码,我为什么推荐IDEA?
  9. 程序员的幸福:上个月被裁拿赔偿,这个月找到涨薪50%的工作
  10. 推荐8个鲜为人知,但是很有意思的工具,简洁又好用!