python urllib.request 爬虫 数据处理-python爬虫1--urllib请求库之request模块
urllib为python内置的HTTP请求库,包含四个模块:
request:最基本的HTTP请求模块, 只需要传入URL和参数
error:异常处理模块
parse:工具模块,处理URL,拆分、解析合并等
robotparser:识别robots.txt文件
1. urlopen()
实现最基本的请求发起,urlopen(url, data=None, [timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
代码:
输出:
response为HTTPRsponse对象:
方法包含:read(),readinto(),getheader(name),getheaders(),fileno()
属性包含:msg,version,status,reason,debuglevel、closed
.data参数
如果不加参数为GET请求,加参数则为POST请求,参数需要先转化为bytes类型
代码:
.timeout参数
设置超时时间,单位为秒,如果请求在设置时间内没有响应,就会抛出异常,默认为全局时间
.其他参数
cafile和capath指定CA证书和路径,context必须是ssl.SSLContext类型,用来指定SSL设置
2. Request
urlopen()只能发起简单的请求,Request可以构建完整的请求信息,然后将Request对象传递给urlopen
Request(url, data=None, headers={},origin_req_host=None, unverifiable=False,method=None)
参数:
url:必填,其余为选填
data:同上
headers:是一个字典,请求头,可以用req.add_headers()方法添加
origin_req_host:请求方的主机名称或ip地址
unverifiable:请求是否是无法验证的,默认False
method:请求方法,GET,POST,PUT等
代码:
3.高级用法Handler
处理更高级的操作,如Cookies,代理,登录验证等。Handler是urllib.request的类
思路:用Handler类构建一个handler------通过build_opener()方法和handle构造一个opener------通过opener的open()方法发送请求
案例---构造普通的handler
踩坑:
1.新建python文件时命名为urllib,导包报错---py文件名不能用库和关键字名称命名;
python urllib.request 爬虫 数据处理-python爬虫1--urllib请求库之request模块相关推荐
- python urllib.request 爬虫 数据处理-python之爬虫(三) Urllib库的基本使用
什么是Urllib Urllib是python内置的HTTP请求库 包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模 ...
- Request和Response-学习笔记02【请求转发和request共享数据、Request_获取ServletContext、request登录案例】
Java后端 学习路线 笔记汇总表[黑马程序员] Request和Response-学习笔记01[Request_原理和继承体系.Request_获取请求数据][day01] Request和Resp ...
- python urllib.request 爬虫 数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
- python urllib.request 爬虫 数据处理-Python爬虫学习之(二)| urllib进阶篇
作者:xiaoyu 微信公众号:Python数据科学 知乎:Python数据分析师 前情回顾,urllib的基本用法 urllib库的基本组成 利用最简单的urlopen方法爬取网页html 利用Re ...
- python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
- python urllib.request 爬虫 数据处理-python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为"周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.s ...
- python urllib.request 爬虫 数据处理-python爬虫 urllib模块url编码处理详解
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为"周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.s ...
- python urllib.request 爬虫 数据处理-python爬虫之json数据处理
# -*- coding: utf-8 -*- # @Time : 2019/11/5 23:18 # @Author : AForever # @Site : # @File : Spider_05 ...
- python 透明图片合成_python:图片合成(PIL 库Image类模块)
实现两张图的合成.两种情况:两张非透明图的合成:涉及透明图的合成. 1.第一类:直接将两张图和在一起就行,选好位置粘贴覆盖.(适合规则图合并) from PIL import Image #加载底图 ...
最新文章
- python多进程_python语法:多进程
- UTF-8 BOM头
- oracle面临的挑战,Oracle SUN,严峻的挑战(一)
- Java设计模式-代理模式 理论代码相结合
- Java 开发人员 2019 生态系统信息图
- 高等数学下-赵立军-北京大学出版社-题解-练习10.2
- Azure手把手系列 4:深入了解Azure 一块钱当三块用
- layui获取select 文本_小程序富文本编辑器editor初体验
- iOS开发之控制器之间传值
- python 发送邮件正文字体设置_python 发送邮件
- 云服务器公网IPv4是什么意思?IPv4还是IPv6好?
- pytorch读取数据集(分类文件夹加载)—ImageFolder()
- ACM ICPC 2008–2009 NEERC MSC A, B, C, G, L
- 关于MySQL数据类型定义的几个细节-INT(N)/VARCHAR(N)/DECIMAL(M,N)
- 服务器硬盘常用的阵列方式有几种,三种常见磁盘阵列设置
- 景深决定照相机什么特性_照相机光圈与景深的关系
- 浅析专题中的构图之美
- 实时控制软件第一次作业总结
- vscode 保存自动格式化代码
- C++常用术语及其英文翻译的含义和简单用途总结(六)
热门文章
- 深入解析Dropout——基本思想:以概率P舍弃部分神经元,其它神经元以概率q=1-p被保留,舍去的神经元的输出都被设置为零...
- 算法 - python - 判断链表是否有环
- golang 接口格式
- BZOJ1951: [Sdoi2010]古代猪文
- Django(models中字段+参数)
- Delphi中Indy 10的安装和老版本的卸载
- 7.11.4 第一个程序 设置环境变量
- influxDB和grafana
- 疯狂C#~伴随着我的库存管理¥
- 如何撰写对用户有吸引力的标题