urllib为python内置的HTTP请求库,包含四个模块:

request:最基本的HTTP请求模块, 只需要传入URL和参数

error:异常处理模块

parse:工具模块,处理URL,拆分、解析合并等

robotparser:识别robots.txt文件

1. urlopen()

实现最基本的请求发起,urlopen(url, data=None, [timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

代码:

输出:

response为HTTPRsponse对象:

方法包含:read(),readinto(),getheader(name),getheaders(),fileno()

属性包含:msg,version,status,reason,debuglevel、closed

.data参数

如果不加参数为GET请求,加参数则为POST请求,参数需要先转化为bytes类型

代码:

.timeout参数

设置超时时间,单位为秒,如果请求在设置时间内没有响应,就会抛出异常,默认为全局时间

.其他参数

cafile和capath指定CA证书和路径,context必须是ssl.SSLContext类型,用来指定SSL设置

2. Request

urlopen()只能发起简单的请求,Request可以构建完整的请求信息,然后将Request对象传递给urlopen

Request(url, data=None, headers={},origin_req_host=None, unverifiable=False,method=None)

参数:

url:必填,其余为选填

data:同上

headers:是一个字典,请求头,可以用req.add_headers()方法添加

origin_req_host:请求方的主机名称或ip地址

unverifiable:请求是否是无法验证的,默认False

method:请求方法,GET,POST,PUT等

代码:

3.高级用法Handler

处理更高级的操作,如Cookies,代理,登录验证等。Handler是urllib.request的类

思路:用Handler类构建一个handler------通过build_opener()方法和handle构造一个opener------通过opener的open()方法发送请求

案例---构造普通的handler

踩坑:

1.新建python文件时命名为urllib,导包报错---py文件名不能用库和关键字名称命名;

python urllib.request 爬虫 数据处理-python爬虫1--urllib请求库之request模块相关推荐

  1. python urllib.request 爬虫 数据处理-python之爬虫(三) Urllib库的基本使用

    什么是Urllib Urllib是python内置的HTTP请求库 包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模 ...

  2. Request和Response-学习笔记02【请求转发和request共享数据、Request_获取ServletContext、request登录案例】

    Java后端 学习路线 笔记汇总表[黑马程序员] Request和Response-学习笔记01[Request_原理和继承体系.Request_获取请求数据][day01] Request和Resp ...

  3. python urllib.request 爬虫 数据处理-python 爬虫之 urllib库

    文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...

  4. python urllib.request 爬虫 数据处理-Python爬虫学习之(二)| urllib进阶篇

    作者:xiaoyu 微信公众号:Python数据科学 知乎:Python数据分析师 前情回顾,urllib的基本用法 urllib库的基本组成 利用最简单的urlopen方法爬取网页html 利用Re ...

  5. python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  6. python urllib.request 爬虫 数据处理-python爬虫 urllib模块url编码处理

    案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为"周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.s ...

  7. python urllib.request 爬虫 数据处理-python爬虫 urllib模块url编码处理详解

    案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为"周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.s ...

  8. python urllib.request 爬虫 数据处理-python爬虫之json数据处理

    # -*- coding: utf-8 -*- # @Time : 2019/11/5 23:18 # @Author : AForever # @Site : # @File : Spider_05 ...

  9. python 透明图片合成_python:图片合成(PIL 库Image类模块)

    实现两张图的合成.两种情况:两张非透明图的合成:涉及透明图的合成. 1.第一类:直接将两张图和在一起就行,选好位置粘贴覆盖.(适合规则图合并) from PIL import Image #加载底图 ...

最新文章

  1. python多进程_python语法:多进程
  2. UTF-8 BOM头
  3. oracle面临的挑战,Oracle SUN,严峻的挑战(一)
  4. Java设计模式-代理模式 理论代码相结合
  5. Java 开发人员 2019 生态系统信息图
  6. 高等数学下-赵立军-北京大学出版社-题解-练习10.2
  7. Azure手把手系列 4:深入了解Azure 一块钱当三块用
  8. layui获取select 文本_小程序富文本编辑器editor初体验
  9. iOS开发之控制器之间传值
  10. python 发送邮件正文字体设置_python 发送邮件
  11. 云服务器公网IPv4是什么意思?IPv4还是IPv6好?
  12. pytorch读取数据集(分类文件夹加载)—ImageFolder()
  13. ACM ICPC 2008–2009 NEERC MSC A, B, C, G, L
  14. 关于MySQL数据类型定义的几个细节-INT(N)/VARCHAR(N)/DECIMAL(M,N)
  15. 服务器硬盘常用的阵列方式有几种,三种常见磁盘阵列设置
  16. 景深决定照相机什么特性_照相机光圈与景深的关系
  17. 浅析专题中的构图之美
  18. 实时控制软件第一次作业总结
  19. vscode 保存自动格式化代码
  20. C++常用术语及其英文翻译的含义和简单用途总结(六)

热门文章

  1. 深入解析Dropout——基本思想:以概率P舍弃部分神经元,其它神经元以概率q=1-p被保留,舍去的神经元的输出都被设置为零...
  2. 算法 - python - 判断链表是否有环
  3. golang 接口格式
  4. BZOJ1951: [Sdoi2010]古代猪文
  5. Django(models中字段+参数)
  6. Delphi中Indy 10的安装和老版本的卸载
  7. 7.11.4 第一个程序 设置环境变量
  8. influxDB和grafana
  9. 疯狂C#~伴随着我的库存管理¥
  10. 如何撰写对用户有吸引力的标题