Python 网络爬虫与数据采集

  • 第二部分 初章 网络爬虫初识
    • 4. 网络爬虫请求篇
      • 4.1 requests 库简介
        • 4.1.1 Requests 的安装
        • 4.1.2 Requests 基本使用
        • 4.2.1 发送带 headers 的请求
        • 4.2.2 发送带参数的请求
          • 4.2.2.1 在 url 携带参数
          • 4.2.2.2 通过 params 携带参数字典
        • 4.2.3 使用 GET 请求抓取网页
        • 4.2.4 在 Headers 参数中携带 cookie
          • 4.2.4.1 Cookies 的获取
          • 4.2.4.2 携带 Cookies 登录
          • 4.2.4.3 cookies 参数的使用
          • 4.2.4.4 构造 RequestsCookieJar 对象进行 cookies 设置
          • 4.2.4.5 cookieJar 对象转换为 cookies 字典的方法
        • 4.2.5 Timeout 设置
      • 4.3 使用 Request 发送 POST 请求
        • 4.3.1 POST 发送 JSON 数据
        • 4.3.2  POST 上传文件
        • 4.3.3 使用 POST 请求抓取网页
      • 4.4 Requests 进阶 (1) * Session 会话维持
        • 4.4.1 requests.session 的作用以及应用场景
        • 4.4.2 requests.session 使用方法
        • 4.4.3 使用 Session 维持 github 登录信息
      • 4.5 Requests 进阶 (2) * 代理的使用
        • 4.5.1 使用代理的过程
        • 4.5.2 正向代理和反向代理
        • 4.5.3 代理 ip(代理服务器)的分类
        • 4.5.4 proxies 代理参数的使用
      • 4.7 Requests 库其他内容
        • 4.7.1 查看响应内容
        • 4.7.2 查看状态码与编码
        • 4.7.3 发送 get 请求,并手动指定编码
        • 4.7.4 chardet 库的使用
        • 4.7.5 使用 detect 方法检测编码并指定
        • 4.7.6 requests 库综合测试
  • 导入相关的库
  • 设置url
  • 设置请求头
  • 生成GET请求,并设置延时为2

第二部分 初章 网络爬虫初识

4. 网络爬虫请求篇

4.1 requests 库简介

Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求,无需手动为 URL 添加查询字串,也不需要对 POST 数据进行表单编码。相对于 urllib3 库,requests 库拥有完全自动化 Keep-alive 和HTTP 连接池的功能。requests 库包含的特性如下。
❖ 1Keep-Alive & 连接池
❖ 国际化域名和 URL
❖ 带持久 Cookie 的会话
❖ 浏览器式的 SSL 认证
❖ 自动内容解码
❖ 基本/摘要式的身份认证
❖ 优雅的 key/value Cookie
❖ 自动解压
❖ Unicode 响应体
❖ HTTP(S) 代理支持
❖ 文件分块上传
❖ 流下载
❖ 连接超时
❖ 分块请求
❖ 支持.netrc

4.1.1 Requests 的安装

pip install requests

4.1.2 Requests 基本使用

代码 1-1: 发送一个 get 请求并查看返回结果

 Python Code:
import requests
url = ’http://www.tipdm.com/tipdm/index.html’
# 生成get请求
rqg = requests.get(url)
# 查看结果类型
print(’查看结果类型: ’, type(rqg))
# 查看状态码
print(’状态码:’,rqg.status_code)
# 查看编码
print(’编码 :’,rqg.encoding)
# 查看响应头
print(’响应头: ’,rqg.headers)
# 打印查看网页内容
print(’查看网页内容:’,rqg.text)
--------------------------------------------------------------------------------------
查看结果类型: <class ’requests.models.Response’>
状态码: 200
编码 : ISO-8859-1
响应头: {’Date’: ’Mon, 18 Nov 2019 04:45:49 GMT’, ’Server’: ’Apache-Coyote/1.1’, ’
Accept-Ranges’: ’bytes’, ’ETag’: ’W/"15693-1562553126764"’, ’Last-Modified’: ’
Mon, 08 Jul 2019 02:32:06 GMT’, ’Content-Type’: ’text/html’, ’Content-Length’: ’
15693’, ’Keep-Alive’: ’timeout=5, max=100’, ’Connection’: ’Keep-Alive’}

4.1.3 Request 基本请求方式
你可以通过 requests 库发送所有的 http 请求:

 Python Code:
requests.get("http://httpbin.org/get") #GET请求
requests.post("http://httpbin.org/post") #POST请求
requests.put("http://httpbin.org/put") #PUT请求
requests.delete("http://httpbin.org/delete") #DELETE请求
requests.head("http://httpbin.org/get") #HEAD请求
requests.options("http://httpbin.org/get") #OPTIONS请求

4.2 使用 Request 发送 GET 请求
HTTP 中最常见的请求之一就是 GET 请求,下面首先来详细了解一下利用 requests 构建 GET请求的方法。

 GET 参数说明: get(url, params=None, **kwargs):

❖ URL: 待请求的网址
❖ params :(可选)字典,列表为请求的查询字符串发送的元组或字节
❖ **kwargs: 可变长关键字参数
首先,构建一个最简单的 GET 请求,请求的链接为 http://httpbin.org/get,该网站会判断如果
客户端发起的是 GET 请求的话,它返回相应的请求信息,如下就是利用 requests 构建一个 GET
请求

 Python Code:
import requests
r = requests.get(’http://httpbin.org/get’)
print(r.text)
{"args": {},
"headers": {"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.24.0",
"X-Amzn-Trace-Id": "Root=1-5fb5b166-571d31047bda880d1ec6c311"
},
"origin": "36.44.144.134",
"url": "http://httpbin.org/get"
}

可以发现,我们成功发起了 GET 请求,返回结果中包含请求头、URL 、IP 等信息。那么,对于 GET 请求,如果要附加额外的信息,一般怎样添加呢?

4.2.1 发送带 headers 的请求

首先我们尝试请求知乎的首页信息!

 Python Code:
import requests
response = requests.get(’https://www.zhihu.com/explore’)
print(f"当前请求的响应状态码为:{response.status_code}")
print(response.text)
------------------------------------
当前请求的响应状态码为:400
<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>
这里发现响应的状态码为 400,说明我们请求失败了,因为知乎已经发现了我们是一个爬虫,
因此需要对浏览器进行伪装,添加对应的 UA 信息。
 Python Code:
import requests
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
response = requests.get(’https://www.zhihu.com/explore’, headers=headers)
print(f"当前请求的响应状态码为:{response.status_code}")
# print(response.text)
----------------------------------------
当前请求的响应状态码为:200
<!doctype html>
.......

这里我们加入了 headers 信息,其中包含了 User-Agent 字段信息,也就是浏览器标识信息。很
明显我们伪装成功了!这种伪装浏览器的方法是最简单的反反爬措施之一。

 GET 参数说明:
携带请求头发送请求的方法
requests.get(url, headers=headers)
- headers 参数接收字典形式的请求头
- 请求头字段名作为 key,字段对应的值作为 value
  • 4 练习 4.1 请求百度的首页 https://www.baidu.com, 要求携带 headers, 并打印请求的头信息!
 Python Code:
import requests
url = ’https://www.baidu.com’
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 在请求头中带上User-Agent,模拟浏览器发送请求
response = requests.get(url, headers=headers)
print(response.content)
# 打印请求头信息
print(response.request.headers)

4.2.2 发送带参数的请求

我们在使用百度搜索的时候经常发现 url 地址中会有一个 ‘?‘,那么该问号后边的就是请求参数,又叫做查询字符串!
通常情况下我们不会只访问基础网页,特别是爬取动态网页时我们需要传递不同的参数获取不同的内容;GET 传递参数有两种方法,可以直接在链接中添加参数或者利用 params 添加参数.

4.2.2.1 在 url 携带参数

直接对含有参数的 url 发起请求

 Python Code:
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = ’https://www.baidu.com/s?wd=python’
response = requests.get(url, headers=headers)
4.2.2.2 通过 params 携带参数字典
  1. 构建请求参数字典
  2. 向接口发送请求的时候带上参数字典,参数字典设置给 params
 Python Code:
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 这是目标url
# url = ’https://www.baidu.com/s?wd=python’
# 最后有没有问号结果都一样
url = ’https://www.baidu.com/s?’
# 请求参数是一个字典 即wd=python
kw = {’wd’: ’python’}
# 带上请求参数发起请求,获取响应
response = requests.get(url, headers=headers, params=kw)
print(response.content)
通过运行结果可以判断,请求的链接自动被构造成了:
http://httpbin.org/get?key2=value2&key1=value1。

另外,网页的返回类型实际上是 str 类型,但是它很特殊,是 JSON 格式的。所以,如果想直接解析返回结果,得到一个字典格式的话,可以直接调用 json() 方法。示例如下:

 Python Code:
import requests
r = requests.get("http://httpbin.org/get")
print( type(r.text))
print(r.json())
print( type(r. json()))
---------------------------------------------------------------
<class ’str’>
{’args’: {}, ’headers’: {’Accept’: ’*/*’, ’Accept-Encoding’: ’gzip, deflate’, ’Host’
: ’httpbin.org’, ’User-Agent’: ’python-requests/2.24.0’, ’X-Amzn-Trace-Id’: ’
Root=1-5fb5b3f9-13f7c2192936ec541bf97841’}, ’origin’: ’36.44.144.134’, ’url’: ’
http://httpbin.org/get’}
<class ’dict’>
可以发现,调用 json() 方法,就可以将返回结果是 JSON 格式的字符串转化为字典。但需要注意的是,如果返回结果不是 JSON 格式,便会出现解析错误,抛出 json.decoder.JSONDecodeError异常。
补充内容,接收字典字符串都会被自动编码发送到 url,如下
 Python Code:
import requests
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36’}
wd = ’雨霓同学’
pn = 1
response = requests.get(’https://www.baidu.com/s’, params={’wd’: wd, ’pn’: pn},
headers=headers)
print(response.url) # 输出为:https://www.baidu.com/s?wd=%E9%9B%A8%E9%9C%93%E5%90%8
C%E5%AD%A6&pn=1
# 可见url已被自动编码

上面代码相当于如下代码,params 编码转换本质上是用 urlencode

 Python Code:
import requests
from urllib.parse import urlencode
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko)
wd = ’雨霓同学’
encode_res = urlencode({’k’: wd}, encoding=’utf-8’)
keyword = encode_res.split(’=’)[1]
print(keyword)
# 然后拼接成url
url = ’https://www.baidu.com/s?wd=%s&pn=1’ % keyword
response = requests.get(url, headers=headers)
print(response.url) # 输出为:https://www.baidu.com/s?wd=%E9%9B%A8%E9%9C%93%E5
%90%8C%E5%AD%A6&pn=1

4.2.3 使用 GET 请求抓取网页

上面的请求链接返回的是 JSON 形式的字符串,那么如果请求普通的网页,则肯定能获得相应的内容了!

 Python Code:
import requests
import re
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
response = requests.get(’https://www.zhihu.com/explore’, headers=headers)
result = re.findall("(ExploreSpecialCard-contentTitle|ExploreRoundtableCardquestionTitle).*?>(.*?)</a>", response.text)
print([i[1] for i in result])
-----------------------
[’西安回民街有什么好吃的?’, ’西安有哪些值得逛的宝藏店铺?’, ’西安哪些商圈承载着你的
青春?’, ’你有哪些好的驾驶习惯可以分享?’, ’有哪些只有经验丰富的司机才知道的驾驶
技巧?’, ’有车的注意了,这些开车知识每个人都要掌握,关键时刻能救命’, ’欢迎着陆!
知乎宇宙成员招募通告’, ’星球登陆问题:给你十块钱穿越到未来,怎样才能混得风生水
起?’, ’星球登陆问题:知乎宇宙中的「超能量」你最希望拥有哪一种?你会如何使用它?
’, ’挪威三文鱼,原产地至关重要’, ’挪威最吸引人的地方有哪些?’, ’生活在挪威是一种
什么体验?’, ’如何看待京东方 AMOLED 柔性屏量产?未来前景如何?’, ’柔性屏能不能给
手机行业带来革命性的影响?’, ’什么是超薄可弯曲柔性电池?会对智能手机的续航产生重
大影响吗?’, ’美术零基础怎样才能学好美术,在艺考中取得高分?’, ’清华美院被鄙视吗
?’, ’艺术生真的很差吗?’, ’人应该怎样过这一生?’, ’人的一生到底该追求什么?’, ’
人类知道世界的终极真理后会疯掉吗?’, ’焦虑是因为自己能力不够吗?’, ’社交恐惧症是
怎样的一种体验?’, ’“忙起来你就没时间抑郁了”这句话有理么?’]

这里我们加入了 headers 信息,其中包含了 User-Agent 字段信息,也就是浏览器标识信息。如果不加这个,知乎会禁止抓取。抓取二进制数据在上面的例子中,我们抓取的是知乎的一个页面,实际上它返回的是一个HTML 文档。如果想抓去图片、音频、视频等文件,应该怎么办呢?图片、音频、视频这些文件本质上都是由二进制码组成的,由于有特定的保存格式和对应的解析方式,我们才可以看到这些形形色色的多媒体。所以,想要抓取它们,就要拿到它们的二进制码。下面以 GitHub 的站点图标为例来看一下:

 Python Code:
import requests
response = requests.get("https://github.com/favicon.ico")
with open(’github.ico’, ’wb’) as f:
f.write(response.content)
Response 对象的两个属性,一个是 text, 另一个是 content. 其中前者表示字符串类型文本,后
者表示 bytes 类型数据, 同样地,音频和视频文件也可以用这种方法获取。

4.2.4 在 Headers 参数中携带 cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持,那么我们可以在 headers 参数中添加 Cookie,模拟普通用户的请求。

4.2.4.1 Cookies 的获取

为了能够通过爬虫获取到登录后的页面,或者是解决通过 cookie 的反爬,需要使用 request来处理 cookie 相关的请求

 Python Code:
import requests
url = ’https://www.baidu.com’
req = requests.get(url)
print(req.cookies) # 响应的cookies
for key, value in req.cookies.items():
print(f"{key} = {value}")
---------------------------------
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ = 27315

这里我们首先调用 cookies 属性即可成功得到 Cookies ,可以发现它是 RequestCookieJar 类型。然后用 items() 方法将其转化为元组组成的列表,遍历输出每一个 Cookie 的名称和值,实现Cookie 的遍历解析。

4.2.4.2 携带 Cookies 登录

带上 cookie、session 的好处:能够请求到登录之后的页面带上 cookie、session 的弊端:
一套 cookie 和 session 往往和一个用户对应请求太快,请求次数太多,容易被服务器识别为爬虫不需要 cookie 的时候尽量不去使用 cookie但是为了获取登录之后的页面, 我们必须发送带有 cookies 的请求我们可以直接用 Cookie 来维持登录状态, 下面以知乎为例来说明。首先登录知乎,将 Headers中的 Cookie 内容复制下来.
➢ 从浏览器中复制 User-Agent 和 Cookie
➢ 浏览器中的请求头字段和值与 headers 参数中必须一致
➢ headers 请求参数字典中的 Cookie 键对应的值是字符串

 Python Code:
import requests
import re
# 构造请求头字典
headers = {# 从浏览器中复制过来的User-Agent
"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’,
# 从浏览器中复制过来的Cookie
"cookie": ’xxx这里是复制过来的cookie字符串’}
# 请求头参数字典中携带cookie字符串
response = requests.get(’https://www.zhihu.com/creator’, headers=headers)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,response.text)
print(response.status_code)
print(data)
当我们不携带 Cookies 进行请求时:
 Python Code:
import requests
import re
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
response = requests.get(’https://www.zhihu.com/creator’, headers=headers)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,response.text)
print(response.status_code)
print(data)
------------------------------------
200
[]
在打印的输出结果中为空, 两者对比, 则成功利用 headers 参数携带 cookie,获取登陆后才能
访问的页面!
4.2.4.3 cookies 参数的使用

上一小节我们在 headers 参数中携带 cookie,也可以使用专门的 cookies 参数
❖ 1. cookies 参数的形式:字典

cookies = "cookie 的 name":"cookie 的 value"

➢ 该字典对应请求头中 Cookie 字符串,以分号、空格分割每一对字典键值对
➢ 等号左边的是一个 cookie 的 name,对应 cookies 字典的 key
➢ 等号右边对应 cookies 字典的 value
❖ 2.cookies 参数的使用方法

response = requests.get(url, cookies)

❖ 3. 将 cookie 字符串转换为 cookies 参数所需的字典:

cookies_dict = { cookie . split (’=’)[0]: cookie . split (’=’)[-1] for cookie in
cookies_str . split (’; ’)}

❖ 4. 注意:cookie 一般是有过期时间的,一旦过期需要重新获取

response = requests.get(url, cookies)
 Python Code:
import requests
import re
url = ’https://www.zhihu.com/creator’
cookies_str = ’复制的cookies’
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
cookies_dict = {cookie.split(’=’, 1)[0]:cookie.split(’=’, 1)[-1] for cookie in
cookies_str.split(’; ’)}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)
print(resp.status_code)
print(data)
--------------------------------------
200
[’python中该怎么把这种id不同但是class相同的方法写成一个整合呀?’, ’父母没有能力给我
买电脑的钱,我该怎么办?’, ’一句话形容一下你现在的生活状态?’]
4.2.4.4 构造 RequestsCookieJar 对象进行 cookies 设置

在这里我们还可以通过构造 RequestsCookieJar 对象进行 cookies 设置, 示例代码如下:

 Python Code:
import requests
import re
url = ’https://www.zhihu.com/creator’
cookies_str = ’复制的cookies’
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
jar = requests.cookies.RequestsCookieJar()
for cookie in cookies_str.split(’;’):
key,value = cookie.split(’=’,1)
jar. set(key,value)
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=jar)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)
print(resp.status_code)
print(data)
--------------------------------------
200
[’python中该怎么把这种id不同但是class相同的方法写成一个整合呀?’, ’父母没有能力给我
买电脑的钱,我该怎么办?’, ’一句话形容一下你现在的生活状态?’]

这里我们首先新建了一个 RequestCookieJar 对象,然后将复制下来的 cookies 利用 split() 方法分剖,接着利用 set() 方法设置好每个 Cookie 的 key 和 value ,然后通过调用 requests 的 get() 方法并传递给 cookies 参数即可。当然,由于知乎本身的限制,headers 参数也不能少,只不过不需要在原来的 headers 参数里面设置 cookie 字段了。测试后,发现同样可以正常登录知乎。

4.2.4.5 cookieJar 对象转换为 cookies 字典的方法

使用 requests 获取的 resposne 对象,具有 cookies 属性。该属性值是一个 cookieJar 类型,包含了对方服务器设置在本地的 cookie。我们如何将其转换为 cookies 字典呢?
❖ 1. 转换方法

cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)

❖ 2. 其中 response.cookies 返回的就是 cookieJar 类型的对象
❖ 3. requests.utils.dict_from_cookiejar 函数返回 cookies 字典

 Python Code:
import requests
import re
url = ’https://www.zhihu.com/creator’
cookies_str = ’复制的cookies’
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
cookie_dict = {cookie.split(’=’, 1)[0]:cookie.split(’=’, 1)[-1] for cookie in
cookies_str.split(’; ’)}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)
print(resp.status_code)
print(data)
# 可以把一个字典转化为一个requests.cookies.RequestsCookieJar对象
cookiejar = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None,
overwrite=True)
type(cookiejar) # requests.cookies.RequestsCookieJar
type(resp.cookies) # requests.cookies.RequestsCookieJar
#构造RequestsCookieJar对象进行cookies设置其中jar的类型也是 requests.cookies.
RequestsCookieJar
#cookiejar转字典
requests.utils.dict_from_cookiejar(cookiejar)

4.2.5 Timeout 设置

在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果。在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。
❖ 1. 超时参数 timeout 的使用方法

response = requests.get(url, timeout=3)

❖ 2. timeout=3 表示:发送请求后,3 秒钟内返回响应,否则就抛出异常

 Python Code:
url = ’http://www.tipdm.com/tipdm/index.html’
#设置超时时间为2
print(’超时时间为2:’,requests.get(url,timeout=2))
# 超时时间过短将会报错
requests.get(url,timeout = 0.1) #备注时间为0.001
超时时间为2: <Response [200]>

4.3 使用 Request 发送 POST 请求

思考:哪些地方我们会用到 POST 请求?

  1. 登录注册(在 web 工程师看来 POST 比 GET 更安全,url 地址中不会暴露用户的账号密码等信息)2. 需要传输大文本内容的时候(POST 请求对数据长度没有要求)所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送 post 请求其实发送 POST 请求与 GET 方式很相似,只是参数的传递我们需要定义在 data 中即可:
 POST 参数说明:
post(url, data=None, json=None, **kwargs):
❖ URL: 待请求的网址
❖ data :(可选) 字典,元组列表,字节或类似文件的对象,以在 Request 的正文中发送
❖ json: (可选)JSON 数据,发送到 Request 类的主体中。
❖ **kwargs: 可变长关键字参数
 Python Code:
import requests
payload = {’key1’: ’value1’, ’key2’: ’value2’}
req = requests.post("http://httpbin.org/post", data=payload)
print(req.text)

4.3.1 POST 发送 JSON 数据

很多时候你想要发送的数据并非编码为表单形式的, 发现特别在爬取很多 java 网址中出现这个问题。如果你传递一个 string 而不是一个 dict,那么数据会被直接发布出去。我们可以使用json.dumps() 是将 dict 转化成 str 格式; 此处除了可以自行对 dict 进行编码,你还可以使用 json 参数直接传递,然后它就会被自动编码。

 Python Code:
import json
import requests
url = ’http://httpbin.org/post’
payload = {’some’: ’data’}
req1 = requests.post(url, data=json.dumps(payload))
req2 = requests.post(url, json=payload)
print(req1.text)
print(req2.text)

可以发现,我们成功获得了返回结果,其中 form 部分就是提交的数据,这就证明 POST 请求成功发送了。

笔记 requests 模块发送请求有 data、json、params 三种携带参数的方法params 在 get
请求中使用,data、json 在 post 请求中使用。data 可以接收的参数为:字典,字符串,字节,文件对象, ❖ 使用 json
参数,不管报文是 str 类型,还是 dict 类型,如果不指定 headers 中 content-type
的类型,默认是:application/json。 ❖
使用data参数,报文是dict类型,如果不指定headers中content-type的类型,默认application/xwww-form
urlencoded,相当于普通 form 表单提交的形式,会将表单内的数据转换成键值对,此时数据可以从 request.POST
里面获取,而 request.body 的内容则为 a=1&b=2 的这种键值对形式。 ❖ 使用 data 参数,报文是 str
类型,如果不指定 headers 中 content-type 的类型,默认 application/json。用 data
参数提交数据时,request.body 的内容则为 a=1&b=2 的这种形式,用 json 参数提交数据时,request.body
的内容则为’“a”: 1, “b”: 2’ 的这种形式

4.3.2  POST 上传文件

如果我们要使用爬虫上传文件,可以使用 file 参数:

 Python Code:
url = ’http://httpbin.org/post’
files = {’file’: open(’test.xlsx’, ’rb’)}
req = requests.post(url, files=files)
req.text
如果有熟悉 WEB 开发的伙伴应该知道,如果你发送一个非常大的文件作为 multipart/formdata 请求,你可能希望将请求做成数据流。默认下 requests 不支持, 你可以使用 requests-toolbelt 三方库。

4.3.3 使用 POST 请求抓取网页

主要是找到待解析的网页

 Python Code:
import requests
# 准备翻译的数据
kw = input("请输入要翻译的词语:")
ps = {"kw": kw}
# 准备伪造请求
headers = {# User-Agent:首字母大写,表示请求的身份信息;一般直接使用浏览器的身份信息,伪造
爬虫请求
# 让浏览器认为这个请求是由浏览器发起的[隐藏爬虫的信息]
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.41"
}
# 发送POST请求,附带要翻译的表单数据--以字典的方式进行传递
response = requests.post("https://fanyi.baidu.com/sug", data=ps)
# 打印返回的数据
# print(response.content)
print(response.content.decode("unicode_escape"))

4.4 Requests 进阶 (1) * Session 会话维持

在这一部分主要介绍关于 Session 会话维持,以及代理 IP 的使用在 requests 中,如果直接利用 get() 或 post() 等方法的确可以做到模拟网页的请求,但是这实际上是相当于不同的会话,也就是说相当于你用了两个浏览器打开了不同的页面。设想这样一个场景,第一个请求利用 post() 方法登录了某个网站,第二次想获取成功登录后的自己的个人信息,你又用了一次 get() 方法去请求个人信息页面。实际上,这相当于打开了两个浏览器,这是两个完全不相关的会话,能成功获取个人信息吗?那当然不能。
有小伙伴可能说了,我在两次请求时设置一样的 cookies 不就行了?可以,但这样做起来显得很烦琐,我们有更简单的解决方法。其实解决这个问题的主要方法就是维持同一个会话,也就是相当于打开一个新的浏览器选项卡而不是新开一个浏览器。但是我又不想每次设置cookies,那该怎么办呢?这时候就有了新的利器一 Session 对象。利用它,我们可以方便地维护一个会话,而且不用担心 cookies 的问题,它会帮我们自动处理好。requests 模块中的 Session 类能够自动处理发送请求获取响应过程中产生的 cookie,进而达到状态保持的目的。接下来我们就来学习它

4.4.1 requests.session 的作用以及应用场景

❖ requests.session 的作用
自动处理 cookie,即下一次请求会带上前一次的 cookie
❖ requests.session 的应用场景
自动处理连续的多次请求过程中产生的 cookie

4.4.2 requests.session 使用方法

session 实例在请求了一个网站后,对方服务器设置在本地的 cookie 会保存在 session 中,下一次再使用 session 请求对方服务器的时候,会带上前一次的 cookie

session = requests . session () # 实 例 化 session 对 象
response = session . get ( url , headers , ...)
response = session . post ( url , data , ...)
session 对象发送 get 或 post 请求的参数,与 requests 模块发送请求的参数完全一致

4.4.3 使用 Session 维持 github 登录信息

❖ 对 github 登陆以及访问登陆后才能访问的页面的整个完成过程进行抓包
❖ 确定登陆请求的 url 地址、请求方法和所需的请求参数- 部分请求参数在别的 url 对应的响应内容中,可以使用 re 模块获取
❖ 确定登陆后才能访问的页面的的 url 地址和请求方法
❖ 利用 requests.session 完成代码

 Python Code:
import requests
import re
# 构造请求头字典
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36’,}
# 实例化session对象
session = requests.session()
# 访问登陆页获取登陆请求所需参数
response = session.get(’https://github.com/login’, headers=headers)
authenticity_token = re.search(’name="authenticity_token" value="(.*?)" />’,
response.text).group(1) # 使用正则获取登陆请求所需参数
# 构造登陆请求参数字典
data = {’commit’: ’Sign in’, # 固定值
’utf8’: ’ ’, # 固定值
’authenticity_token’: authenticity_token, # 该参数在登陆页的响应内容中
’login’: input(’输入github账号:’),
’password’: input(’输入github账号:’)}
# 发送登陆请求(无需关注本次请求的响应)
session.post(’https://github.com/session’, headers=headers, data=data)
# 打印需要登陆后才能访问的页面
response = session.get(’https://github.com/settings/profile’, headers=headers)
print(response.text)

可以使用文本对比工具进行校对!

4.5 Requests 进阶 (2) * 代理的使用

对于某些网站,在测试的时候请求几次,能正常获取内容。但是一旦开始大规模爬取,对于大规模且频繁的请求,网站可能会弹出验证码,或者跳转到登录认证页面,更甚者可能会直接封禁客户端的 IP ,导致一定时间段内无法访问。那么,为了防止这种情况发生,我们需要设置代理来解决这个问题,这就需要用到 proxies 参数。可以用这样的方式设置:proxy 代理参数通过指定代理 ip,让代理 ip 对应的正向代理服务器转发我们发送的请求,那么我们首先来了解一下代理 ip 以及代理服务器。

4.5.1 使用代理的过程

  1. 代理 ip 是一个 ip,指向的是一个代理服务器
  2. 代理服务器能够帮我们向目标服务器转发请求

4.5.2 正向代理和反向代理

前边提到 proxy 参数指定的代理 ip 指向的是正向的代理服务器,那么相应的就有反向服务器;现在来了解一下正向代理服务器和反向代理服务器的区别
❖ 从发送请求的一方的角度,来区分正向或反向代理
❖ 为浏览器或客户端(发送请求的一方)转发请求的,叫做正向代理- 浏览器知道最终处理请求的服务器的真实 ip 地址,例如 VPN
❖ 不为浏览器或客户端(发送请求的一方)转发请求、而是为最终处理请求的服务器转发请求的,叫做反向代理- 浏览器不知道服务器的真实地址,例如 nginx

4.5.3 代理 ip(代理服务器)的分类

❖ 根据代理 ip 的匿名程度,代理 IP 可以分为下面三类:
➢ 透明代理 (Transparent Proxy):透明代理虽然可以直接“隐藏”你的 IP 地址,但是还是可以查到你是谁。目标服务器接收到的请求头如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP

➢ 匿名代理 (Anonymous Proxy):使用匿名代理,别人只能知道你用了代理,无法知道你是谁。目标服务器接收到的请求头如下:

REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP

➢ 高匿代理 (Elite proxy 或 High Anonymity Proxy):高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。** 毫无疑问使用高匿代理效果最好 **。目标服务器接收到的请求头如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

❖ 根据网站所使用的协议不同,需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为:
➢ http 代理:目标 url 为 http 协议
➢ https 代理:目标 url 为 https 协议
➢ socks 隧道代理(例如 socks5 代理)等:
✾ 1. socks 代理只是简单地传递数据包,不关心是何种应用协议(FTP、HTTP 和HTTPS 等)。
✾ 2. socks 代理比 http、https 代理耗时少。
✾ 3. socks 代理可以转发 http 和 https 的请求

4.5.4 proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求;为了防止频繁向一个域名发送请求被封 ip,所以我们需要使用代理 ip;那么我们接下来要学习 requests 模块是如何使用代理 ip 的基本用法

response = requests . get ( url , proxies = proxies )
proxies 的形式:字典
proxies = {" http ": " http :// 12.34.56.79: 9527 ",
" https ": " https :// 12.34.56.79: 9527 ",
}

注意:如果 proxies 字典中包含有多个键值对,发送请求时将按照 url 地址的协议来选择使用相应的代理 ip

 Python Code:
import requests
proxies = {"http": "http://124.236.111.11:80",
"https": "https:183.220.145.3:8080"}
req = requests.get(’http://www.baidu.com’,proxies =proxies)
req.status_code
4.6 Requests 进阶 (3) * SSL 证书验证
此外,requests 还提供了证书验证的功能。当发送 HTTP 请求的时候,它会检查 SSL 证书,我
们可以使用 verify 参数控制是否检查此证书。其实如果不加 verify 参数的话,默认是 True ,会向
动验证。
现在我们用 requests 来测试一下:
 Python Code:
import requests
url = ’https://cas.xijing.edu.cn/xjtyrz/login’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers)
------------------------------------------------
SSLError: HTTPSConnectionPool(host=’cas.xijing.edu.cn’, port=443): Max retries
exceeded with url: /xjtyrz/login (Caused by SSLError(SSLCertVerificationError(1,
’[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get
local issuer certificate (_ssl.c:1123)’)))

这里提示一个错误 SSL Error ,表示证书验证错误。所以,如果请求一个 HTTPS 站点,但是证书验证错误的页面时,就会报这样的错误,那么如何避免这个错误呢?很简单,把 verify 参数设置为 False 即可。相关代码如下:

 Python Code:
import requests
url = ’https://www.jci.edu.cn/’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers,verify=False)
req.status_code
------------------------------------------------
200
找不到需要做 SSL 验证的网页了,好气哦!
不过我们发现报了一个警告它建议我们给它指定证书。我们可以通过设置忽略警告的方式来
屏蔽这个警告:
 Python Code:
import requests
from requests.packages import urllib3
urllib3.disable_warnings()
url = ’https://www.jci.edu.cn/’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers,verify=False)
req.status_code
------------------------------------------------
200
或者通过捕获警告到日志的方式忽略警告:
 Python Code:
import logging
import requests
logging.captureWarnings(True)
url = ’https://www.jci.edu.cn/’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers,verify=False)
req.status_code
------------------------------------------------
200
当然,我们也可以指定一个本地证书用作客户端证书,这可以是单个文件(包含密钥和证书)
或一个包含两个文件路径的元组:
 Python Code:
import requests
response = requests.get(’https://www.12306.cn’,cert=(’./path/server.crt’,’/path/key’
))
print(response.status_code)
------------------------------------------------
200

当然,上面的代码是演示实例,我们需要有 crt 和 ke y 文件,并且指定它们的路径。注意,本地私有证书的 key 必须是解密状态,加密状态的 key 是不支持的。现在都很少有这种了网址了!

4.7 Requests 库其他内容

4.7.1 查看响应内容

发送请求后,得到的自然就是响应。在上面的实例中,我们使用 text 和 content 获取了响应的内容。此外,还有很多属性和方法可以用来获取其他信息,比如状态码、响应头、Cookies 等。
示例如下:

 Python Code:
import requests
url = ’https://www.baidu.com’
req = requests.get(url)
print(req.status_code) # 响应状态码
print(req.text) # 响应的文本内容
print(req.content) # 响应的二进制内容
print(req.cookies) # 响应的cookies
print(req.encoding) # 响应的编码
print(req.headers) # 响应的头部信息
print(req.url) # 响应的网址
print(req.history) # 响应的历史

4.7.2 查看状态码与编码

使用 rqg.status_code 的形式可查看服务器返回的状态码,而使用 rqg.encoding 的形式可通过服务器返回的 HTTP 头部信息进行网页编码。需要注意的是,当 Requests 库猜测错误的时候,需要手动指定 encoding 编码,避免返回的网页内容出现乱码

4.7.3 发送 get 请求,并手动指定编码

代码 1-2: 发送 get 请求,并手动指定编码

 Python Code:
url = ’http://www.tipdm.com/tipdm/index.html’
rqg = requests.get(url)
print(’状态码 ’,rqg.status_code)
print(’编码 ’,rqg.encoding)
rqg.encoding = ’utf-8’ #手动指定编码
print(’修改后的编码 ’,rqg.encoding)
# print(rqg.text)
状态码 200
编码 ISO-8859-1
修改后的编码 utf-8


笔记 手动指定的方法并不灵活,无法自适应爬取过程中的不同的网页编码,而使用 chardet 库的 方法比较简便灵活。chardet库是一个非常优秀的字符串/文件编码检测模块

4.7.4 chardet 库的使用

chartdet 库的 detect 方法可以检测给定字符串的编码,其语法格式如下。

 Python Code:
chartdet.detect(byte_str)
detect方法常用参数及其说明
byte_str: 接收string。表示需要检测编码的字符串。无默认值

4.7.5 使用 detect 方法检测编码并指定

代码 1-3: 使用 detect 方法检测编码并指定编码

 Python Code:
import chardet
url = ’http://www.tipdm.com/tipdm/index.html’
rqg = requests.get(url)
print(rqg.encoding)
print(chardet.detect(rqg.content))
rqg.encoding = chardet.detect(rqg.content)[’encoding’] # 访问字典元素
print(rqg.encoding)
ISO-8859-1
{’encoding’: ’utf-8’, ’confidence’: 0.99, ’language’: ’’}
utf-8

4.7.6 requests 库综合测试

向网站’http://www.tipdm.com/tipdm/index.html’ 发送一个完整 GET 的请求, 该请求包含链接、请求头、响应头、超时时间和状态码, 并且编码正确设置。代码 1-6: 生成完整的 HTTP 请求
 Python Code:

导入相关的库

import requests
import chardet

设置url

url = ’http://www.tipdm.com/tipdm/index.html’

设置请求头

headers = {“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36”}

生成GET请求,并设置延时为2

rqg = requests.

get(url,headers=headers,timeout = 2)
# 查看状态码
print("状态码 ",rqg.status_code)
# 检测编码(查看编码)
print(’编码 ’,rqg.encoding)
# 使用chardet库的detect方法修正编码
rqg.encoding = chardet.detect(rqg.content)[’encoding’]
# 检测修正后的编码
print(’修正后的编码: ’,rqg.encoding)
#查看响应头
print(’响应头: ’,rqg.headers)
# 查看网页内容
#print(rqg.text)
状态码 200
编码 ISO-8859-1
修正后的编码: utf-8
响应头: {’Date’: ’Mon, 18 Nov 2019 06:28:56 GMT’, ’Server’: ’Apache-Coyote/1.1’, ’
Accept-Ranges’: ’bytes’, ’ETag’: ’W/"15693-1562553126764"’, ’Last-Modified’: ’
Mon, 08 Jul 2019 02:32:06 GMT’, ’Content-Type’: ’text/html’, ’Content-Length’: ’
15693’, ’Keep-Alive’: ’timeout=5, max=100’, ’Connection’: ’Keep-Alive’}

Python 网络爬虫与数据采集(二)相关推荐

  1. Python网络爬虫与信息提取(二):网络爬虫之提取

    此系列笔记来源于 中国大学MOOC-北京理工大学-嵩天老师的Python系列课程 转载自:http://www.jianshu.com/p/7b950b8a5966 4. Beautiful Soup ...

  2. python网络爬虫入门(二)——百度贴吧

    前面爬完了糗事百科,接下来看看百度贴吧. 可是光光获取评论文字也是忒无聊了,咱们来点图片. 然鹅,找哪儿的图好吶,翻来覆去,一个偶然的机会,让我看到了这个: 机智的我灵机一动,为什么创建这个" ...

  3. Python网络爬虫项目实战(二)数据解析

    上一篇说完了如何爬取一个网页,以及爬取中可能遇到的几个问题.那么接下来我们就需要对已经爬取下来的网页进行解析,从中提取出我们想要的数据. 根据爬取下来的数据,我们需要写不同的解析方式,最常见的一般都是 ...

  4. python网络爬虫系列(二)——ProxyHandler处理器实现代理IP

    ProxyHandler处理器(代理): 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个lP的访问. 所以我们可以设置一些代理服务器, ...

  5. Python网络爬虫入门(二)

    requests库 import requests #get方法 response= requests.get("url") print(response.content.deco ...

  6. python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  7. Python网络爬虫数据采集实战:Scrapy框架爬取QQ音乐存入MongoDB

    ​    通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本 ...

  8. Python网络爬虫数据采集实战(八):Scrapy框架爬取QQ音乐存入MongoDB

    通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本涵盖了爬虫 ...

  9. Python网络爬虫数据采集实战:同花顺动态网页爬取

    前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码.之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页, ...

最新文章

  1. do while循环语句_流程控制之循环语句【while循环语句】
  2. CMake Error include could not find load file: AwsCFlags 解決辦法
  3. 【已解决】蓝桥杯 2017年C组第五题 杨辉三角(分析与总结)
  4. java throw与throws_基于Java中throw和throws的区别(详解)
  5. iOS 仿支付宝刮刮乐效果
  6. react常用知识点总结
  7. CCF201709-2 公共钥匙盒
  8. 路由表(FIB)的初始化
  9. NoSQL数据库探讨- 为什么要用非关系数据库?
  10. rust哪里油桶多_我们在说Filecoin的时候为什么要说rust语言
  11. python暴力破解六位密码(数字和大小写字母)
  12. magic4.0跟harmonyos,支持升级Harmony 2.0 Magic UI 4.0 9月中旬招募公测
  13. php+uc+client_uc_client是如何与UCenter进行通信的
  14. 【简答题】JavaWeb必问10道简答题
  15. .net实现串口通信
  16. 明日方舟公式计算机,【科普向】明日方舟里的伤害计算公式
  17. 线性表的链式存储结构以及单链表的插入和删除原理实现
  18. Python爬虫学习之爬取淘宝搜索图片
  19. Unity精华☀️ 「设计模式」的终极详解!
  20. 分享 :几个超级实用的excel小技巧

热门文章

  1. HarmonyOS玩转ArkUI动效 - 水母动画
  2. css盒心形的代码过程,CSS心形加载的动画源码的实现
  3. 搜索引擎资料收藏(转)
  4. C盘创建文件或复制文件时提示错误0x80070522:客户端没有所需的特权的两种解决办法
  5. emc存储设备型号_EMC推出两款Symmetrix存储设备
  6. Android应用生死轮回的那些事儿(4) - 武器库(2)-应用组件查询相关API
  7. 静态与静态内部类详解
  8. uni-app.03.初始化picker下拉列表的默认值
  9. 转载:中国人不可不知道的知识(怕以后找不到了~~)
  10. Nginx分布式框架