urllib的实现---cookie处理
Cookie的使用
用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。
什么是cookies?
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。
比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。
opener的概念
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。
urlopen是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。
如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要创建更一般的opener来实现对Cookie的设置。
Cookielib
cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系:CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
使用cookie登录的步骤
1)获取Cookie保存到变量
import urllib.request import http.cookiejarURL_ROOT = r'http://d.weibo.com/'cookie = http.cookiejar.CookieJar() # 声明一个CookieJar对象实例来保存cookie handler = urllib.request.HTTPCookieProcessor(cookie) # 利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器 opener = urllib.request.build_opener(handler) # 通过handler来构建openerresponse = opener.open(URL_ROOT) # 此处的open方法同urllib2的urlopen方法,也可以传入requestfor item in cookie:print('Name = ' + item.name)print('Value = ' + item.value)
我们使用以上方法将cookie保存到变量中,然后打印出了cookie中的值,运行结果如下
Name = YF-Page-G0
Value = dc8d8d4964cd93a7c3bfa7640c1bd10c
Note:py3中opener也可以这样使用:
request = urllib.request.Request(URL_ROOT, postdata, headers) response = opener.open(request)
或者:
urllib.request.install_opener(opener)
request = urllib.request.Request(URL_ROOT, postdata, headers)
response = urllib.request.urlopen(request)2)保存Cookie到文件上面我们将cookie保存到了cookie这个变量中,如果我们想将cookie保存到文件中该怎么做呢?这时,我们就要用到FileCookieJar这个对象了,在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存
import urllib.request, urllib.parse, urllib.error import http.cookiejarURL_ROOT = 'http://www.jobbole.com/login/' values = {'name': '******', 'password': '******'} postdata = urllib.parse.urlencode(values).encode() user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36' headers = {'User-Agent': user_agent}cookie_filename = 'cookie.txt' cookie = http.cookiejar.LWPCookieJar(cookie_filename) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler)request = urllib.request.Request(URL_ROOT, postdata, headers) try:response = opener.open(request) except urllib.error.URLError as e:print(e.reason)cookie.save(ignore_discard=True, ignore_expires=True) # 保存cookie到cookie.txt中 for item in cookie:print('Name = ' + item.name)print('Value = ' + item.value)
Note:
1. 不同cookie写入文件方法的解释:
FileCookieJar(filename):创建FileCookieJar实例,检索cookie信息并将信息存储到文件中,filename是文件名。
MozillaCookieJar(filename):创建与Mozilla cookies.txt文件兼容的FileCookieJar实例。
LWPCookieJar(filename):创建与libwww-perl Set-Cookie3文件兼容的FileCookieJar实例。
2. save方法的两个参数的官方解释:
ignore_discard: save even cookies set to be discarded. 即使cookies将被丢弃也将它保存下来
ignore_expires: save even cookies that have expiredThe file is overwritten if it already exists.如果在该文件中cookies已经存在,则覆盖原文件写入
3. python3中如果直接使用http.cookiejar.CookieJar(filename)的方式会出错:self._policy._now = self._now = int(time.time()) AttributeError: 'str' object has no attribute '_now'。注意要将CookieJar改为LWPCookieJar。
3)从文件中获取Cookie并访问
那么我们已经做到把Cookie保存到文件中了,如果以后想使用,可以利用下面的方法来读取cookie并访问网站,感受一下
import urllib.request import urllib.parse import urllib.error import http.cookiejarcookie_filename = 'cookie_jar.txt' cookie = http.cookiejar.MozillaCookieJar(cookie_filename) cookie.load(cookie_filename, ignore_discard=True, ignore_expires=True) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler)get_url = 'http://www.jobbole.com/' # 利用cookie请求访问另一个网址 get_request = urllib.request.Request(get_url) get_response = opener.open(get_request) print(get_response.read().decode())
http://blog.csdn.net/pipisorry/article/details/47905781
转载于:https://www.cnblogs.com/mrwuzs/p/8018240.html
urllib的实现---cookie处理相关推荐
- python爬虫 - Urllib库及cookie的使用
lz提示一点,python3中urllib包括了py2中的urllib+urllib2.[python2和python3的区别.转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它 ...
- Cookie登录爬取实战:Python 利用urllib库的cookie实现网站登录并抓取
1 环境:Python 3 +urllib库 实战网站:http://www.mjzcnd.com/ 梅江之春论坛网站 2 背景: 现在许多网站都需要登录后才能访问某个页面,在登陆之前,我们是没有权 ...
- urllib post请求 cookie
2019独角兽企业重金招聘Python工程师标准>>> #!/usr/bin/python #coding=utf-8 import urllib import urllib2 de ...
- urllib库中cookie的使用
#----------------------------如何获取cookie信息-------------------------------------------- import http.co ...
- 爬虫实战学习笔记_2 网络请求urllib模块+设置请求头+Cookie+模拟登陆
1 urllib模块 1.1 urllib模块简介 Python3中将urib与urllib2模块的功能组合,并且命名为urllib.Python3中的urllib模块中包含多个功能的子模块,具体内容 ...
- python网络爬虫系列教程——python中urllib、urllib2、cookie模块应用全解
全栈工程师开发手册 (作者:栾鹏) python教程全解 python数据挖掘库urllib.urllib2.cookie知识全解.本文使用python2.7环境,如果需要使用python3的环境只需 ...
- 使用urllib.request库获取cookie登录
使用urllib.request库获取cookie登录 一 .使用手动添加cookie的方式来获取页面 二.使用 cookiejar 自动获取登录后获得的cookie 一 .使用手动添加cookie的 ...
- python爬虫之cookie方式自动登录巴比特网
最近打算抓取公司内部PPT模板库中的PPT,发现被各种安全屏蔽.因为好久没写程序了,因此写几个例子回顾下基本的爬虫知识 目标网址巴比特的登录页面 http://8btc.com/member.php? ...
- Python3 登陆网页并保持cookie
网页登陆 网页登陆的原理都是,保持一个sessionid在cookie然后,根据sessionid在服务端找到cookie进行用户识别 python实现 由于python的简单以及丰富的类库是开发网络 ...
最新文章
- Google、Intel、Uber等巨头如何布局AI?听听他们自己人怎么说
- 计算机图形学画圆vc代码,计算机图形学实验--完整版-带结果--vc++实现.doc
- HDU2594——Simpsons’ Hidden Talents
- Maven(一)Maven及插件安装
- 查看并设置oracle并发连接数
- redis哨兵主从不切换_《「面试突击」—Redis篇》-- Redis的主从复制?哨兵机制?...
- Node.js ES6 模块化的基本语法-直接导入并执行模块代码
- 在资本寒冬下,程序员为何也能迅速找到好工作
- MYSQL数据库优化的八种方式
- 决胜未来,2019年前端开发十大战略性技术布局
- Luogu1091 合唱队形
- 腾讯技术分享:GIF动图技术详解及手机QQ动态表情压缩技术实践
- 第5课 电子商务基础
- 反爬虫策略分析及处理
- 什么是运维工程师?运维工程师应该具备的素质
- FPGA下载(kintex-7)
- Arduino学习(九): 写一个Arduino扩展库:音乐播放库,并实现跨平台
- R语言—基本统计分析
- 精简JavaScript
- CSS动画之旋转魔方轮播
热门文章
- pku 1573 Robot Motion 第一周训练——模拟
- Ubuntu16.04系统运行VINS-Mono(安装、环境配置)
- 2018年高教社杯全国大学生数学建模竞赛题目问题B 智能RGV的动态调度策略
- Win10重装系统后更改用户文件夹名称的方法
- 人工智能 | 人工智能的发展历程
- oracle中国授权机构查询,oracle授权查询
- 理解SetCapture、ReleaseCapture、GetCapture(控制了消息发往哪个窗口,是理解消息的关键)
- matlab 行 读取文件 跳过_用Matlab处理LAS点云(1)——LAS文件概述
- 损失函数|交叉熵损失函数
- AI理论知识整理(8)-素数与最大公因数