urllib和urllib2区别

 urllib和urllib2区别:

  Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能。他们两个最显着的差异如下:

  •   总结1:urllib2可以接受一个Request对象,并以此可以来设置一个URL的headers,但是urllib只接收一个URL。这意味着,你不能伪装你的用户代理字符串等。
  •   总结2:urllib模块可以提供进行urlencode的方法,该方法用于GET查询字符串的生成,urllib2的不具有这样的功能。这就是urllib与urllib2经常在一起使用的原因。

  

  A.urllib2概述

  urllib2模块定义的函数和类用来获取URL(主要是HTTP的),他提供一些复杂的接口用于处理: 基本认证,重定向,Cookies等。

  urllib2支持许多的“URL schemes”(由URL中的“:”之前的字符串确定 - 例如“FTP”的URL方案如“ftp://python.org/”),且他还支持其相关的网络协议(如FTP,HTTP)。我们则重点关注HTTP。

  在简单的情况下,我们会使用urllib2模块的最常用的方法urlopen。但只要打开HTTP URL时遇到错误或异常的情况下,就需要一些HTTP传输协议的知识。我们没有必要掌握HTTP RFC2616。这是一个最全面和最权威的技术文档,且不易于阅读。在使用urllib2时会用到HTTP RFC2616相关的知识,了解即可。

  B.常用方法和类

  1) urllib2.urlopen(url[, data][, timeout])

  urlopen方法是urllib2模块最常用也最简单的方法,它打开URL网址,url参数可以是一个字符串url或者是一个Request对象。URL没什么可说的,Request对象和data在request类中说明,定义都是一样的。

  对于可选的参数timeout,阻塞操作以秒为单位,如尝试连接(如果没有指定,将使用设置的全局默认timeout值)。实际上这仅适用于HTTP,HTTPS和FTP连接。

  先看只包含URL的请求例子:

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

  urlopen方法也可通过建立了一个Request对象来明确指明想要获取的url。调用urlopen函数对请求的url返回一个response对象。这个response类似于一个file对象,所以用.read()函数可以操作这个response对象。

import urllib2
req = urllib2.Request('http://python.org/')
response = urllib2.urlopen(req)
the_page = response.read()

这里用到了urllib2.Request类,对于上例,我们只通过了URL实例化了Request类的对象,其实Request类还有其他的参数。

  2) class urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

Request类是一个抽象的URL请求。5个参数的说明如下

  URL——是一个字符串,其中包含一个有效的URL。

  data——是一个字符串,指定额外的数据发送到服务器,如果没有data需要发送可以为“None”。目前使用data的HTTP请求是唯一的。当请求含有data参数时,HTTP的请求为POST,而不是GET。数据应该是缓存在一个标准的application/x-www-form-urlencoded格式中。urllib.urlencode()函数用映射或2元组,返回一个这种格式的字符串。通俗的说就是如果想向一个URL发送数据(通常这些数据是代表一些CGI脚本或者其他的web应用)。对于HTTP来说这动作叫Post。例如在网上填的form(表单)时,浏览器会POST表单的内容,这些数据需要被以标准的格式编码(encode),然后作为一个数据参数传送给Request对象。Encoding是在urlib模块中完成的,而不是在urlib2中完成的。下面是个例子:

import urllib
import urllib2
url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord','location' : 'Northampton','language' : 'Python' }
data = urllib.urlencode(values)#rrllib.urlencode()函数用映射或二元组,返回标准格式的字符串
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()

至此,以上例子解释了最开头【总结2】文字 即urllib模块可以提供进行urlencode的方法,该方法用于GET查询字符串的生成,urllib2的不具有这样的功能。这就是urllib与urllib2经常在一起使用的原因。

参数headers——是字典类型,头字典可以作为参数在request时直接传入,也可以把每个键和值作为参数调用add_header()方法来添加。

import urllib
import urllib2
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'name' : 'Michael Foord', 'location' : 'Northampton', 'language' : 'Python' } headers = { 'User-Agent' : user_agent }#伪装主机的headers data = urllib.urlencode(values) req = urllib2.Request(url, data, headers)#headers传入Request类 response = urllib2.urlopen(req) the_page = response.read()

此例子,header 可以解释 【总结1】,即urllib2可以接受一个Request对象,并以此可以来设置一个URL的headers,但是urllib只接收一个URL。这意味着,你不能伪装你的用户代理字符串等。

origin_req_host——是RFC2965定义的源交互的request-host。默认的取值是cookielib.request_host(self)。这是由用户发起的原始请求的主机名或IP地址。例如,如果请求的是一个HTML文档中的图像,这应该是包含该图像的页面请求的request-host。 
unverifiable ——代表请求是否是无法验证的,它也是由RFC2965定义的。默认值为false。一个无法验证的请求是,其用户的URL没有足够的权限来被接受。例如,如果请求的是在HTML文档中的图像,但是用户没有自动抓取图像的权限,unverifiable的值就应该是true。

urllib和urllib2区别相关推荐

  1. python requests和urllib_Python——深入理解urllib、urllib2及requests(requests不建议使用?)...

    深入理解urllib.urllib2及requests Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年, ...

  2. Python——深入理解urllib、urllib2及requests(requests不建议使用?)

    在python中有两种方式可以发送http请求: 通过python自带的urllib模块,不需要安装,直接from urllib import request,直接使用request对象做Http请求 ...

  3. urllib和urllib2的区别(很全面详细!)

    文章摘自:https://www.cnblogs.com/wly923/archive/2013/05/07/3057122.html urllib与urllib2的学习总结(python2.7.X) ...

  4. urllib、urllib2、urllib3 和 requests 模块有什么区别?

    问: 在 Python 中,urllib.urllib2.urllib3 和 requests 模块有什么区别?为什么有三个?他们似乎在做同样的事情- 答1: HuntsBot周刊–不定时分享成功产品 ...

  5. Python urllib、urllib2、urllib3用法及区别

    简介1 在可供使用的网络库中,urllib和urllib2可能是投入产出比最高的两个,是Python中操作url的官方标准库.它们让你能够通过网络访问文件,就像这些文件位于你的计算机中一样.只需一个简 ...

  6. python的httplib、urllib和urllib2的区别及应用

    urllib 和urllib2都是接受URL请求的相关模块,但是urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL.这意味着,你不可以伪装你 ...

  7. urllib和urllib2的区别和使用

    Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能.他们两个最显著的差异如下: urllib2可以接受一个Request对象,并以此可以来设置一个URL的h ...

  8. urllib,urllib2,urllib3区别

    python3中也有urllib和urllib3两个库,其中urllib几乎是python2.7中urllib和urllib2两个模块的集合,所以我们最常用的urllib模块,而urllib3则作为一 ...

  9. Py之urllib2:Python库之urllib、urllib2、urllib3系列简介、安装、使用方法之详细攻略

    Py之urllib2:Python库之urllib.urllib2.urllib3系列简介.安装.使用方法之详细攻略 目录 urllib2简介 urllib2安装 urllib2使用方法 urllib ...

最新文章

  1. 做人应该知道的十个道理
  2. CCF NOI1010 邮寄包裹
  3. DL之RBM:(sklearn自带数据集为1797个样本*64个特征+5倍数据集)深度学习之BRBM模型学习+LR进行分类实现手写数字图识别
  4. PHP的操作符与控制结构
  5. 【Linux】centos7安装bcp报错
  6. Android UI开发神兵利器之设计资源
  7. 由内而外全面进化,影像娱乐都出彩,vivo S12 Pro上手
  8. todo游戏行业实战案例3:玩家等级停滞率
  9. 1006:Hello World
  10. 搭建图像搜索引擎(之0):霍比特人直方图
  11. php phpstudy虚拟域名配置
  12. 哔哩哔哩直播步骤记录,避免遗漏
  13. python爬虫 - 代理ip正确使用方法
  14. C:\KEIL\C51\intrins.h包含不正确的路径。Keil 头文件路径错误
  15. java强行访问别人qq空间_疯人院:如何使用javascript来获取QQ空间最近访客好友。...
  16. 奥塔在线:VisualStudio中使用Git的详细配置说明
  17. 华为od统一考试B卷【跳房子2】Python 实现
  18. 谷歌眼镜开发Mirror API之Glassware启动清单
  19. 卡巴斯基或遭攻击,黑客称窃取了40000份文件资料
  20. aws s3 图片批量上传工具 CLI

热门文章

  1. IDEA如何配置 Gradle 及 Gradle 安装过程(详细版)
  2. 图像处理---亚像素
  3. KITTI 自动驾驶 数据集 镜像 百度网盘 百度云 下载
  4. Python-字典学习笔记(完)
  5. P2P网贷平台转型案例
  6. 推荐一些不常见的搜索引擎
  7. 【JavaMap接口】特点实现类HashMap常用方法
  8. 计算机开机黑屏并有报警声,开机报警5声,开机黑屏报警8声
  9. 微信发展简史:微信成功的必然和偶然
  10. 大数据分析软技能有哪些