获取AJAX加载的内容

有些网页内容使用AJAX请求加载,这种数据无法直接对网页url进行获取。但是只要记住,AJAX请求一般返回给网页的是JSON文件,只要对AJAX请求地址进行POST或GET,就能返回JSON数据了。

如果非要从HTML页面里获取展现出来的数据,也不是不可以。但是要记住,作为一名爬虫工程师,你更需要关注的是数据的来源。

案例:豆瓣电影数据采集
# demo1url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&"headers={"User-Agent": "Mozilla...."}# 变动的是这两个参数,从start开始往后显示limit个
formdata = {'start':'0','limit':'10'
}
data = urllib.urlencode(formdata)request = urllib.request.Request(url + data, headers = headers)
response = urllib2.urlopen(request)print(response.read())# demo2url = "https://movie.douban.com/j/chart/top_list?"
headers={"User-Agent": "Mozilla...."}# 处理所有参数
formdata = {'type':'11','interval_id':'100:90','action':'','start':'0','limit':'10'
}
data = urllib.urlencode(formdata)request = urllib2.Request(url + data, headers = headers)
response = urllib2.urlopen(request)print(response.read())


(三)POST请求:

获取AJAX加载的内容

有些网页内容使用AJAX请求加载,这种数据无法直接对网页url进行获取。但是只要记住,AJAX请求一般返回给网页的是JSON文件,只要对AJAX请求地址进行POST或GET,就能返回JSON数据了。

如果非要从HTML页面里获取展现出来的数据,也不是不可以。但是要记住,作为一名爬虫工程师,你更需要关注的是数据的来源。

发送POST请求时,需要了解的headers一些属性:

Content-Length: 100: 是指发送的表单数据长度为100,也就是url编码字符串的字符个数是100个。

Content-Type: application/x-www-form-urlencoded : 表示浏览器提交 Web 表单时使用,表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。

X-Requested-With: XMLHttpRequest :表示AJAX异步请求

腾讯翻译君案例:

1.解析页面

输入要翻译的文本,显示出翻译内容,html发生了变化,其url没有发生改变,这是一个动态页面。

通过浏览器自带的抓包工具,抓取动态页面。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qFi2DX6k-1572593825007)(./assets/腾讯翻译01.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PerqBiCg-1572593825008)(assets/腾讯翻译02.png)]

2.分析数据

输入不同的文本内容,分析post携带的表单数据有何异同

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k8fFmZ1L-1572593825008)(assets/腾讯翻译03.png)]

根据文本内容不同(例如,翻译框输入“你好” 和“中国”后对比表单信息),发现表单的所有字段都相同,唯有要翻译的文本信息和时间戳不一样,其他都相同,那我们可以针对这两个字段,替换成符合要求的内容。

"sourceText": input("请输入要翻译的内容")
# 时间戳
# 根据经验,15或16开头的10-15位数字,一般优先考虑是时间戳
"sessionUuid": "translate_uuid" + str(int(time.time() * 1000))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7s3OJSkg-1572593825008)(assets/时间戳.png)]

尝试用POST方式发送请求

import json
import requests
import time# post请求的url地址, 通过浏览器抓包获取
base_url = "https://fanyi.qq.com/api/translate"headers = {"Accept": "application/json, text/javascript, */*; q=0.01","Connection": "keep-alive","Content-Length": "294","Content-Type": "application/x-www-form-urlencoded; charset=UTF-8","Cookie": "fy_guid=94af8e98-08f4-49a2-9562-1c93b5299969; qtv=c03f8898e63faaf1; qtk=c0VhySUiXAQjye4yzCLCCnS2VJiX3nO+PguX/CLuhKsDkPu2+aN5vr0fr0/6hfpi+jVIS4Z0Ys7bm4xK1jsYymyeF3qbhP1xI3kbKmqf1UBe/TnrdmhbwkYPdmjP61aqIZfIN89ZyLDagGo2fjNESg==; openCount=1; gr_user_id=6edf2548-7b4e-4c34-9c05-6831c2ebb552; 8507d3409e6fad23_gr_session_id=8577a037-6ae8-4d6e-b898-3eb27a84dc16; grwng_uid=d7ac9b1f-70f3-48b1-8e56-a1d004132d66; 8c66aca9f0d1ff2e_gr_session_id=c74395eb-6342-4057-8224-077764c5a5eb; 8507d3409e6fad23_gr_session_id_8577a037-6ae8-4d6e-b898-3eb27a84dc16=false","Host": "fanyi.qq.com","Origin": "https://fanyi.qq.com","Referer": "https://fanyi.qq.com/","User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36","X-Requested-With": "XMLHttpRequest"
}# 需要传递的表单数据
form_data = {"source": "auto","target": "auto",# 翻译的内容"sourceText": input("请输入要翻译的内容"),"qtv": "c03f8898e63faaf1","qtk": "c0VhySUiXAQjye4yzCLCCnS2VJiX3nO+PguX/CLuhKsDkPu2+aN5vr0fr0/6hfpi+jVIS4Z0Ys7bm4xK1jsYymyeF3qbhP1xI3kbKmqf1UBe/,TnrdmhbwkYPdmjP61aqIZfIN89ZyLDagGo2fjNESg==",# 时间戳"sessionUuid": "translate_uuid" + str(int(time.time() * 1000))}def send_request():# requests是urllib的封装response2 = requests.post(base_url, data=form_data, headers=headers)return response2def parse_response(response):# 获取响应字符串str_content = response.content.decode("utf-8")# 将响应字符串转为Python数据类型dict_json = json.loads(str_content)print("翻译结果", dict_json["translate"]["records"][0]["targetText"])def main():response2 = send_request()parse_response(response2)if __name__ == '__main__':main()
练习:
有道翻译:根据输入的内容实现翻译功能
# youdaofanyi.py

发送POST请求时,需要了解的headers一些属性:

Content-Length: 100: 是指发送的表单数据长度为100,也就是url编码字符串的字符个数是100个。

Content-Type: application/x-www-form-urlencoded : 表示浏览器提交 Web 表单时使用,表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。

X-Requested-With: XMLHttpRequest :表示AJAX异步请求。


问题:GET和POST的区别?

  • GET方式是直接以链接形式访问,链接中包含了所有的参数,服务器端用Request.QueryString获取变量的值。如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。
  • POST则不会在网址上显示所有的参数,服务器端用Request.Form获取提交的数据,在Form提交的时候。但是HTML代码里如果不指定 method 属性,则默认为GET请求,Form中提交的数据将会附加在url之后,以?分开与url分开。
  • 表单数据可以作为 URL 字段(method=“get”)或者 HTTP POST (method=“post”)的方式来发送。比如在下面的HTML代码中,表单数据将因为 (method=“get”) 而附加到 URL 上:
<form action="https://movie.douban.com/subject_search" method="get"><fieldset><legend>搜索:</legend><label for="inp-query"></label><div class="inp"><input id="inp-query" name="search_text" size="22" maxlength="60" placeholder="搜索电影、电视剧、综艺、影人" value="" autocomplete="off"></div><div class="inp-btn"><input type="submit" value="搜索"></div><input type="hidden" name="cat" value="1002"></fieldset></form>

————————————————————————————————————————————

(四)urllib和urllib2的高级用法

Handler处理器 和 自定义Opener

opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。

但是基本的urlopen()方法不支持代理、Cookie等其他的 HTTP/HTTPS高级功能。所以要支持这些功能:

  1. 使用相关的 Handler处理器 来创建特定功能的处理器对象;
  2. 然后通过 urllib2.build_opener()方法使用这些处理器对象,创建自定义opener对象;
  3. 使用自定义的opener对象,调用open()方法发送请求。
  4. 注意:如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)。

简单的自定义opener()

import urllib2# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
http_handler = urllib2.HTTPHandler()# 调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
opener = urllib2.build_opener(http_handler)# 构建 Request请求
request = urllib2.Request("http://www.baidu.com/")# 调用自定义opener对象的open()方法,发送request请求
# (注意区别:不再通过urllib2.urlopen()发送请求)
response = opener.open(request)# 获取服务器响应内容
print(response.read())

这种方式发送请求得到的结果,和使用urllib2.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

如果在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。

# 仅需要修改的代码部分:# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求,同时开启Debug Log,debuglevel 值默认 0
http_handler = urllib2.HTTPHandler(debuglevel=1)# 构建一个HTTPHSandler 处理器对象,支持处理HTTPS请求,同时开启Debug Log,debuglevel 值默认 0
https_handler = urllib2.HTTPSHandler(debuglevel=1)

ProxyHandler处理器(代理设置)

使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。

所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。

urllib2中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:

#urllib2_proxy1.pyimport urllib2# 构建了两个代理Handler,一个有代理IP,一个没有代理IP
httpproxy_handler = urllib2.ProxyHandler({"http" : "124.88.67.81:80"})
nullproxy_handler = urllib2.ProxyHandler({})proxySwitch = True #定义一个代理开关# 通过 urllib2.build_opener()方法使用这些代理Handler对象,创建自定义opener对象
# 根据代理开关是否打开,使用不同的代理模式
if proxySwitch:  opener = urllib2.build_opener(httpproxy_handler)
else:opener = urllib2.build_opener(nullproxy_handler)request = urllib2.Request("http://www.baidu.com/")# 1. 如果这么写,只有使用opener.open()方法发送请求才使用自定义的代理,而urlopen()则不使用自定义代理。
response = opener.open(request)# 2. 如果这么写,就是将opener应用到全局,之后所有的,不管是opener.open()还是urlopen() 发送请求,都将使用自定义代理。
# urllib2.install_opener(opener)
# response = urlopen(request)print(response.read())

免费的开放代理获取基本没有成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。

免费短期代理网站举例:

  • 西刺免费代理IP
  • 快代理免费代理
  • Proxy360代理
  • 全网代理IP

如果代理IP足够多,就可以像随机获取User-Agent一样,随机选择一个代理去访问网站。

import urllib2
import randomproxy_list = [{"http" : "124.88.67.81:80"},{"http" : "124.88.67.81:80"},{"http" : "124.88.67.81:80"},{"http" : "124.88.67.81:80"},{"http" : "124.88.67.81:80"}
]# 随机选择一个代理
proxy = random.choice(proxy_list)
# 使用选择的代理构建代理处理器对象
httpproxy_handler = urllib2.ProxyHandler(proxy)opener = urllib2.build_opener(httpproxy_handler)request = urllib2.Request("http://www.baidu.com/")
response = opener.open(request)
print(response.read())

但是,这些免费开放代理一般会有很多人都在使用,而且代理有寿命短,速度慢,匿名度不高,HTTP/HTTPS支持不稳定等缺点(免费没好货)。

匿名度:通常情况下,使用免费代理是可以看到真实IP的,所以也叫透明代理。透明代理的请求报头有X-Forwarded-For部分,值是原始客户端的 IP。()

所以,专业爬虫工程师或爬虫公司会使用高品质的私密/验证代理,这些代理通常需要找专门的代理供应商购买,再通过用户名/密码授权使用(舍不得孩子套不到狼)。

#urllib2_proxy2.pyimport urllib2
import urllib# 1. 构建一个附带Auth验证的的ProxyHandler处理器类对象,注意代理的格式  username:password@ip:port
proxyauth_handler = urllib2.ProxyHandler({"http" : "1412780938:vidasedf@61.158.163.130:16816"})# 2. 通过 build_opener()方法使用这个代理Handler对象,创建自定义opener对象,参数包括构建的 proxy_handler
opener = urllib2.build_opener(proxyauth_handler)# 3. 构造Request 请求
request = urllib2.Request("http://www.baidu.com/")# 4. 使用自定义opener发送请求
response = opener.open(request)# 5. 打印响应内容
print(response.read())

(五)Cookie

HTTP是无状态的面向连接的协议,服务器和客户端的交互仅限于请求/响应过程,结束之后便断开,在下一次请求时,服务器会认为新的客户端。为了维护他们之间的链接,让服务器知道这是之前某个用户发送的请求,则必须在一个地方保存客户端的信息。

Cookie:通过在 客户端 记录的信息确定用户的身份。

Session:通过在 服务器端 记录的信息确定用户的身份。

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。

Cookie属性

Cookie是http请求报头中的一种属性,包括:

Cookie名字(Name)
Cookie的值(Value)
Cookie的过期时间(Expires/Max-Age)
Cookie作用路径(Path)
Cookie所在域名(Domain),
使用Cookie进行安全连接(Secure)。

前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(不同浏览器对Cookie个数及大小限制是有差异的)。

Cookie由变量名和值组成,根据 Netscape公司的规定,Cookie格式如下:

Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站,在下一次进入此网站时保留用户信息,可以简化登录或其他验证过程。

#coding:utf-8
# 获取一个有登录信息的Cookie模拟登陆import urllib2# 1. 构建一个已经登录过的用户的headers信息
headers = {"Host":"www.renren.com","Connection":"keep-alive","Upgrade-Insecure-Requests":"1","User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36","Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8","Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",# 便于终端阅读,表示不支持压缩文件# Accept-Encoding: gzip, deflate, sdch,# 重点:这个Cookie是一个保存了用户登录状态的Cookie"Cookie": "anonymid=jwg5px9223orjc; depovince=GW; _r01_=1; ln_uact=18825497183; ln_hurl=http://head.xiaonei.com/photos/0/0/women_main.gif; jebe_key=92178614-d76c-4b30-ae4c-cf5230f40a6b%7C8929088c513cf05dd96eed20f4a679a3%7C1559553449912%7C1%7C1559553448004; _ga=GA1.2.2038660007.1559553454; _de=0CCE9B3A71DB756E78A87E0C943704C1; p=b3ad31d72e376df8848e6ca0793411344; ap=833691044; wp=0; jebecookies=ff92123f-5c84-44c1-992b-a60957847141|||||; first_login_flag=1; t=07dff644a650c9f2b1911f59cd199db14; societyguester=07dff644a650c9f2b1911f59cd199db14; id=833691044; xnsid=d44688bb; ver=7.0; loginfrom=null; wp_fold=0"
}# 2. 通过headers里的报头信息(主要是Cookie信息),构建Request对象
request = urllib2.Request("http://www.renren.com/", headers = headers)# 3. 直接访问renren主页,服务器会根据headers报头信息(主要是Cookie信息),判断这是一个已经登录的用户,并返回相应的页面
response = urllib2.urlopen(request)# 4. 打印响应内容
print(response.read())

思考:但是这样做太过复杂,我们先需要在浏览器登录用户名和密码,并且通过抓包才能获取这个Cookie,那有没有更简单方便的方法呢?

cookielib库 和 HTTPCookieProcessor处理器

在Python处理Cookie,一般是通过cookielib模块和 urllib2模块的HTTPCookieProcessor处理器类一起使用。

cookielib模块:主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器:主要作用是处理这些cookie对象,并构建handler对象。

cookielib 库

该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

  • CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。
  • FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件,即只有在需要时才读取文件或在文件中存储数据。
  • MozillaCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。
  • LWPCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。

其实大多数情况下,我们只用CookieJar(),如果需要和本地文件交互,就用 MozillaCookjar() 或 LWPCookieJar()

我们来做几个案例:

1.获取Cookie,并保存到CookieJar()对象中
# urllib2_cookielibtest1.pyimport urllib2
import cookielib# 构建一个CookieJar对象实例来保存cookie
cookiejar = cookielib.CookieJar()# 使用HTTPCookieProcessor()来创建cookie处理器对象,参数为CookieJar()对象
handler=urllib2.HTTPCookieProcessor(cookiejar)# 通过 build_opener() 来构建opener
opener = urllib2.build_opener(handler)# 4. 以get方法访问页面,访问之后会自动保存cookie到cookiejar中
opener.open("http://www.baidu.com")## 可以按标准格式将保存的Cookie打印出来
cookieStr = ""
for item in cookiejar:cookieStr = cookieStr + item.name + "=" + item.value + ";"## 舍去最后一位的分号
print(cookieStr[:-1])

我们使用以上方法将Cookie保存到cookiejar对象中,然后打印出了cookie中的值,也就是访问百度首页的Cookie值。

运行结果如下:

BAIDUID=FBCA5399B860A3D097BE86726D8462CD:FG=1;BIDUPSID=FBCA5399B860A3D097BE86726D8462CD;H_PS_PSSID=1423_28939_21093_28518_29099_29139_29134_28831_28585_29133_28701;PSTM=1559630032;delPer=0;BDSVRTM=0;BD_HOME=0
2. 访问网站获得cookie,并把获得的cookie保存在cookie文件中
# urllib2_cookielibtest2.pyimport cookielib
import urllib2# 保存cookie的本地磁盘文件名
filename = 'cookie.txt'# 声明一个MozillaCookieJar(有save实现)对象实例来保存cookie,之后写入文件
cookiejar = cookielib.MozillaCookieJar(filename)# 使用HTTPCookieProcessor()来创建cookie处理器对象,参数为CookieJar()对象
handler = urllib2.HTTPCookieProcessor(cookiejar)# 通过 build_opener() 来构建opener
opener = urllib2.build_opener(handler)# 创建一个请求,原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")# 保存cookie到本地文件
cookiejar.save()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V67kVDX3-1572593825009)(assets/cookie_file.png)]

3. 从文件中获取cookies,做为请求的一部分去访问
# urllib2_cookielibtest2.pyimport cookielib
import urllib2# 创建MozillaCookieJar(有load实现)实例对象
cookiejar = cookielib.MozillaCookieJar()# 从文件中读取cookie内容到变量
cookie.load('cookie.txt')# 使用HTTPCookieProcessor()来创建cookie处理器对象,参数为CookieJar()对象
handler = urllib2.HTTPCookieProcessor(cookiejar)# 通过 build_opener() 来构建opener
opener = urllib2.build_opener(handler)response = opener.open("http://www.baidu.com")

案例:利用cookielib和post登录人人网

#coding:utf-8
import urllib
import urllib2
import cookielib# 1. 构建一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()# 2. 使用HTTPCookieProcessor()来创建cookie处理器对象,参数为CookieJar()对象
cookie_handler = urllib2.HTTPCookieProcessor(cookie)# 3. 通过 build_opener() 来构建opener
opener = urllib2.build_opener(cookie_handler)# 4. addheaders 接受一个列表,里面每个元素都是一个headers信息的元祖, opener将附带headers信息
opener.addheaders = [("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36")]# 5. 需要登录的账户和密码
data = {"email":"18825497183", "password":"xb94062138"}# 6. 通过urlencode()转码
postdata = urllib.urlencode(data)# 7. 构建Request请求对象,包含需要发送的用户名和密码
request = urllib2.Request("http://www.renren.com/PLogin.do", data = postdata)# 8. 通过opener发送这个请求,并获取登录后的Cookie值,
opener.open(request)# 9. opener包含用户登录后的Cookie值,可以直接访问那些登录后才可以访问的页面
response = opener.open("http://www.renren.com/928944480/profile")# 10. 打印响应内容
print(response.read())

这个测试案例中,为了想让大家快速理解知识点,我们使用的人人网登录接口是人人网改版前的隐藏接口,只需要账户米和密码即可登录。

所以,想做通用的模拟登录还得选别的技术,比如用内置浏览器引擎的爬虫(关键词:Selenium ,PhantomJS),这个我们将在以后会学习到。

模拟登录的注意事项:

  1. 登录一般都会先有一个HTTP GET,用于拉取一些信息及获得Cookie,然后再HTTP POST登录。
  2. HTTP POST登录的链接有可能是动态的,从GET返回的信息中获取。
  3. 大多数网站的登录整体流程是类似的,可能有些细节不一样,所以不能保证其他网站登录成功。

———————————————————————————————————————————————————————————

(六)异常错误处理

在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。

这里主要说的是URLError和HTTPError,以及对它们的错误处理。

URLError

URLError 产生的原因主要有:

  1. 没有网络连接
  2. 服务器连接失败
  3. 找不到指定的服务器

我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名:

# urllib2_urlerror.pyimport urllib2request = urllib2.Request("http://www.ajkfhafwjqh.com")try:urllib2.urlopen(request, timeout=5)
except urllib2.URLError, err:print(err)

运行结果如下:

<urlopen error [Errno 8] nodename nor servname provided, or not known>

urlopen error,错误代码8,错误原因是没有找到指定的服务器。

HTTPError

HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。

如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。

注意,urllib2可以为我们处理重定向的页面(也就是3开头的响应码),100-299范围的号码表示成功,所以我们只能看到400-599的错误号码。

# urllib2_httperror.pyimport urllib2request = urllib2.Request("http://www.baidu.com/fad") try:urllib2.urlopen(request)
except urllib2.HTTPError, err:print(err.code)print(err)

运行结果如下:

404
HTTP Error 404: Not Found

HTTP Error,错误代号是404,错误原因是Not Found,说明服务器无法找到被请求的页面。

通常产生这种错误的,要么url不对,要么ip被封。

改进版

由于HTTPError的父类是URLError,所以父类的异常应当写到子类异常的后面,所以上述的代码可以这么改写:

# urllib2_botherror.pyimport urllib2request = urllib2.Request("http://www.baidu.com") try:urllib2.urlopen(request)except urllib2.HTTPError, err:print(err.code)except urllib2.URLError, err:print(err)else:print("Good Job")

运行结果如下:

404

这样我们就可以做到,首先捕获子类的异常,如果子类捕获不到,那么可以捕获父类的异常。

(七)HTTP响应状态码参考:

1xx:信息100 Continue
服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
101 Switching Protocols
服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。2xx:成功200 OK
请求成功(其后是对GET和POST请求的应答文档)
201 Created
请求被创建完成,同时新的资源被创建。
202 Accepted
供处理的请求已被接受,但是处理未完成。
203 Non-authoritative Information
文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
204 No Content
没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
205 Reset Content
没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content
客户发送了一个带有Range头的GET请求,服务器完成了它。3xx:重定向300 Multiple Choices
多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently
所请求的页面已经转移至新的url。
302 Moved Temporarily
所请求的页面已经临时转移至新的url。
303 See Other
所请求的页面可在别的url下被找到。
304 Not Modified
未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy
客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused
此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
307 Temporary Redirect
被请求的页面已经临时移至新的url。4xx:客户端错误400 Bad Request
服务器未能理解请求。
401 Unauthorized
被请求的页面需要用户名和密码。
401.1
登录失败。
401.2
服务器配置导致登录失败。
401.3
由于 ACL 对资源的限制而未获得授权。
401.4
筛选器授权失败。
401.5
ISAPI/CGI 应用程序授权失败。
401.7
访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required
此代码尚无法使用。
403 Forbidden
对被请求页面的访问被禁止。
403.1
执行访问被禁止。
403.2
读访问被禁止。
403.3
写访问被禁止。
403.4
要求 SSL。
403.5
要求 SSL 128。
403.6
IP 地址被拒绝。
403.7
要求客户端证书。
403.8
站点访问被拒绝。
403.9
用户数过多。
403.10
配置无效。
403.11
密码更改。
403.12
拒绝访问映射表。
403.13
客户端证书被吊销。
403.14
拒绝目录列表。
403.15
超出客户端访问许可。
403.16
客户端证书不受信任或无效。
403.17
客户端证书已过期或尚未生效。
403.18
在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found
服务器无法找到被请求的页面。
404.0
没有找到文件或目录。
404.1
无法在所请求的端口上访问 Web 站点。
404.2
Web 服务扩展锁定策略阻止本请求。
404.3
MIME 映射策略阻止本请求。
405 Method Not Allowed
请求中指定的方法不被允许。
406 Not Acceptable
服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required
用户必须首先使用代理服务器进行验证,这样请求才会被处理。
408 Request Timeout
请求超出了服务器的等待时间。
409 Conflict
由于冲突,请求无法被完成。
410 Gone
被请求的页面不可用。
411 Length Required
"Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
412 Precondition Failed
请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large
由于所请求的实体的太大,服务器不会接受请求。
414 Request-url Too Long
由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
415 Unsupported Media Type
由于媒介类型不被支持,服务器不会接受请求。
416 Requested Range Not Satisfiable
服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed
执行失败。
423
锁定的错误。5xx:服务器错误500 Internal Server Error
请求未完成。服务器遇到不可预知的情况。
500.12
应用程序正忙于在 Web 服务器上重新启动。
500.13
Web 服务器太忙。
500.15
不允许直接请求 Global.asa。
500.16
UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
内部 ASP 错误。
501 Not Implemented
请求未完成。服务器不支持所请求的功能。
502 Bad Gateway
请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
CGI 应用程序超时。 ·
502.2
CGI 应用程序出错。
503 Service Unavailable
请求未完成。服务器临时过载或当机。
504 Gateway Timeout
网关超时。
505 HTTP Version Not Supported
服务器不支持请求中指明的HTTP协议版本

—————————————————————————————————————————————————————————————————————————————————————

五、Requests: 让 HTTP 服务人类

虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:)

Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。

requests 的底层实现其实就是 urllib3

Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持Python 2.6—3.5,而且能在PyPy下完美运行。

开源地址:https://github.com/kennethreitz/requests

中文文档 API: http://docs.python-requests.org/zh_CN/latest/index.html

安装方式

利用 pip 安装 或者利用 easy_install 都可以完成安装:

$ pip install requests$ easy_install requests

基本GET请求(headers参数 和 parmas参数)

1. 最基本的GET请求可以直接用get方法

response = requests.get("http://www.baidu.com/")# 也可以这么写
# response = requests.request("get", "http://www.baidu.com/")

2. 添加 headers 和 查询参数

如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递,可以利用 params 参数。

import requestskw = {'wd':'长城'}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# params 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
response = requests.get("http://www.baidu.com/s?", params = kw, headers = headers)# 查看响应内容,response.text 返回的是Unicode格式的数据
print(response.text)# 查看响应内容,response.content返回的字节流数据
print(respones.content)# 查看完整url地址
print(response.url)# 查看响应头部字符编码
print(response.encoding)# 查看响应码
print(response.status_code)

运行结果

............'http://www.baidu.com/s?wd=%E9%95%BF%E5%9F%8E''utf-8'200
  • 使用response.text 时,Requests 会基于 HTTP 响应的文本编码自动解码响应内容,大多数 Unicode 字符集都能被无缝地解码。
  • 使用response.content 时,返回的是服务器响应数据的原始二进制字节流,可以用来保存图片等二进制文件。

基本POST请求(data参数)

1. 最基本的GET请求可以直接用post方法

response = requests.post("http://www.baidu.com/", data = data)

2. 传入data数据

对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。

#import urllib
#import urllib2
#import json
import requests# POST请求的目标URL
url = "http://fanyi.qq.com/api/translate"headers={"User-Agent": "Mozilla...."}keyword = {"source":"auto","target" : "auto","sourceText" : "你好Python", # 需要翻译的内容"sessionUuid ": "translate_uuid15617720945431" #translate_uuid + Unix时间戳(毫秒)
}# data = urllib.urlencode(keyword)
# request = urllib2.Request(url, data)
# response = urllib2.urlopen(request)# 获取响应字符串
# html = response.read()# 将响应字符串转为Python数据类型
# result = json.loads(html)result = requests.post(url, headers = headers, data = keyword).json()
print(result['translate']['records'][0]['targetText'])# Hello, Python.

运行结果

{"type":"EN2ZH_CN","errorCode":0,"elapsedTime":2,"translateResult":[[{"src":"i love python","tgt":"我喜欢python"}]],"smartResult":{"type":1,"entries":["","肆文","高德纳"]}}{u'errorCode': 0, u'elapsedTime': 0, u'translateResult': [[{u'src': u'i love python', u'tgt': u'\u6211\u559c\u6b22python'}]], u'smartResult': {u'type': 1, u'entries': [u'', u'\u8086\u6587', u'\u9ad8\u5fb7\u7eb3']}, u'type': u'EN2ZH_CN'}

代理(proxies参数)

如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:

import requests# 根据协议类型,选择不同的代理
proxies = {"http": "http://12.34.56.79:9527"}response = requests.get("http://www.baidu.com", proxies = proxies)
print(response.text)

私密代理验证(特定格式)

import requests# 如果代理需要使用HTTP Basic Auth,可以使用下面这种格式:
proxy = { "http": "1412780938:ivmiafn@61.158.163.130:16816" }response = requests.get("http://www.baidu.com", proxies = proxy)print(response.text)

Cookies 和 Session

Cookies

如果一个响应中包含了cookie,那么我们可以利用 cookies参数拿到:

import requestsresponse = requests.get("http://www.baidu.com/")# 7. 返回CookieJar对象:
cookiejar = response.cookies# 8. 将CookieJar转为字典:
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)print(cookiejar)print(cookiedict)

运行结果:

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>{'BDORZ': '27315'}

Session

在 requests 里,session对象是一个非常常用的对象,这个对象代表一次用户会话:从客户端浏览器连接服务器开始,到客户端浏览器与服务器断开。

会话能让我们在跨请求时候保持某些参数,比如在同一个 Session 实例发出的所有请求之间保持 cookie 。

案例:实现人人网登录

# -*- coding: utf-8 -*-
import requests# 1. 创建session对象,可以保存Cookie值
ssion = requests.session()# 2. 处理 headers
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# 3. 需要登录的用户名和密码
data = {"email":"18825497183", "password":"xb94062138"}# 4. 发送附带用户名和密码的请求,并获取登录后的Cookie值,保存在ssion里
ssion.post("http://www.renren.com/PLogin.do", data = data)# 5. ssion包含用户登录后的Cookie值,可以直接访问那些登录后才可以访问的页面response = ssion.get("http://www.renren.com/928944480/profile")# 6. 打印响应内容
print(response.text)

处理HTTPS请求 SSL证书验证

Requests也可以为HTTPS请求验证SSL证书:

  • 要想检查某个主机的SSL证书,你可以使用 verify 参数(也可以不写)
import requests
response = requests.get("https://www.baidu.com/", verify=True)# 也可以省略不写
# response = requests.get("https://www.baidu.com/")
print(r.text)

运行结果:

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge>百度一下,你就知道 ....
  • 如果SSL证书验证不通过,或者不信任服务器的安全证书,则会报出SSLError:

来测试一下:

import requests
response = requests.get("https://www.12306.cn/mormhweb/")
print(response.text)

果然:

SSLError: ("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我们想跳过 12306 的证书验证,把 verify 设置为 False 就可以正常请求了。

r = requests.get("https://www.12306.cn/mormhweb/", verify = False)

登录后的Cookie值,保存在ssion里
ssion.post(“http://www.renren.com/PLogin.do”, data = data)

5. ssion包含用户登录后的Cookie值,可以直接访问那些登录后才可以访问的页面

response = ssion.get(“http://www.renren.com/928944480/profile”)

6. 打印响应内容

print(response.text)

## 处理HTTPS请求 SSL证书验证Requests也可以为HTTPS请求验证SSL证书:- 要想检查某个主机的SSL证书,你可以使用 verify 参数(也可以不写)```python
import requests
response = requests.get("https://www.baidu.com/", verify=True)# 也可以省略不写
# response = requests.get("https://www.baidu.com/")
print(r.text)

运行结果:

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge>百度一下,你就知道 ....
  • 如果SSL证书验证不通过,或者不信任服务器的安全证书,则会报出SSLError:

来测试一下:

import requests
response = requests.get("https://www.12306.cn/mormhweb/")
print(response.text)

果然:

SSLError: ("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我们想跳过 12306 的证书验证,把 verify 设置为 False 就可以正常请求了。

r = requests.get("https://www.12306.cn/mormhweb/", verify = False)

————————————————————————————————————————————

爬虫第三课 AJAX相关推荐

  1. 爬虫项目三:爬取选课信息

    爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...

  2. 第三课 go语言改到php仿优酷-阿里云视频上传功能

    第三课 go语言改到php仿优酷-阿里云视频上传功能 tags: Beego 慕课网 categories: go环境安装 Beego框架 阿里云 视频点播服务 文章目录 第三课 go语言改到php仿 ...

  3. [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图

    [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图 学习笔记--爬取今日头条街拍美图 准备工作 抓取分析 实战演练 学习笔记–爬取今日头条街拍美图 尝试通过分析Ajax请求来抓取 ...

  4. python爬虫学习笔记-网络爬虫的三种数据解析方式

    爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)"抓取系统"的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 ...

  5. (三)AJAX基本介绍和简单实例03

    (三)AJAX基本介绍和简单实例03-----Ajax与数据库的动态应用 前台显示界面: 选择所有客户之后: 选择其中一个客户---杜森: Demo03.html代码 <html> < ...

  6. 第三课.运算符与表达式

    第三课目录 运算符与表达式 算术运算符 关系运算符 逻辑运算符 德摩根律 使用断言assert 位运算符 补码 补码与位运算 赋值运算符 杂项运算符 运算符与表达式 数学是科技发展的基础,数学公式的意 ...

  7. 第三课.Linux代码编辑器

    第三课目录 vi/vim vi/vim简介 vi的模式 vi在命令模式下的操作 vi在底线命令模式下的操作 Visual Studio Code Git git简介 关于git的故事 git的使用 v ...

  8. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  9. [转载]Python爬虫入门三之Urllib库的基本使用

    python爬虫系列教程http://cuiqingcai.com/1052.html 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优 ...

最新文章

  1. 13个月才跑通GitHub模型,机器学习科研入门太难了吧
  2. Thinkphp学习笔记-编辑工具Sublime license
  3. 怎么通过华为三层交换机实现VLAN间通信?
  4. python numpy hstack() from shape_base.py (将数组水平堆叠)
  5. 【Webkit Blog翻译】深入研究WebRTC | 内有福利
  6. 39道高级java面试题及答案(最新)
  7. Linq表达式和Lambda表达式用法对比
  8. Games101 计算机图形学课程笔记: Lecture14 Ray Tracing 2
  9. 【人脸识别】VGGFace2数据集介绍
  10. linux忘记开机密码解决方案
  11. 分布式之Zookeeper使用
  12. 手机客户端接口开发文档模板整理
  13. 《商务与经济统计》练习:案例2-1:Pelican商店促销活动效果评估
  14. Excel 英文切换大小写;Excel 中去除重复项
  15. Vim简单介绍和使用方法
  16. WINRAR诊断信息:不可预料的压缩文件末端
  17. OMEN惠普HP暗夜精灵5:win10下安装Ubuntu16.04双系统(win10+linux)
  18. CoAP协议之初探(一)
  19. pycharm批量注释
  20. HTML中常见的选择器 的优先级

热门文章

  1. 这些话,很经典,很哲理,也很触动
  2. 纯真IP数据库(qqwry.dat)转换成最新的IP数据库格式(ipwry.dat)
  3. 2011年终总结-DIY 苹果手机铃声
  4. 计算机系的同学应该有更高的雄心壮志!学编程只是第一步!
  5. linux6禁用屏幕保护程序,彻底关闭屏幕保护程序的方法避免长时间不动屏幕会生成屏保...
  6. PHP接收云之家审批结果,云之家智能审批操作指引.PDF
  7. 如何用C语言写一段关机程序,恶搞代码,很简单的呦
  8. S3C2440时钟体系结构与编程
  9. 聆听音乐6cd下载_机器聆听如何改变智能家居体验
  10. 爱奇艺android投屏,爱奇艺投屏失败问题解决方法