python 爬虫(cookie)

cookie和session区别

cookie数据存放在客户浏览器上，session数据放在服务器上
cookie不是很安全，别人可以分析放在本地的cookie并进行cookie欺骗
session会在一定时间上保存在服务器。当访问增多，会比较占用服务器的性能。
单个cookie保存的数据不能超过4K，很多浏览器限制到一个站点最多保存20个cookie

爬虫处理cookie和session

带上cookie、session的优点:

能够请求到登录后页面

带上cookie、session的弊端:

不需要cookie的时候尽量不去使用cookie
但是为了获取登录后的页面，我们必须发送带有cookie的请求

一套cookie和session往往和一个用户对应

请求太快、请求次数太多、容易被服务器识别为爬虫

携带cookie的请求

携带一堆cookie进行请求，把cookie组成cookie池

处理cookie、session请求

requests提供了一个叫做session类，来实现客户端和服务端的会话保持

使用方法:

实例化一个session对象
session发送get或者post请求

session = requests.session()
resp = session.get(url,headers)

请求登录之后的网站

未登录时我们无法直接通过url地址访问用户信息页

实例化session
先使用session发送请求，登录网站，把cookie保存在session中
再使用session请求登录之后才能访问的网站，session能够自动的携带登录成功是保存在其中的cookie，进行请求

import requests
session=requests.session()
port_url='http://www.renren.com/PLogin.do'
post_data={}
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"}

不发送post请求，使用cookie获取登录后的页面

cookie过期时间很长的网站
在cookie过期之前能够拿到所有的数据，比较麻烦
配合其他程序一起使用，其他程序专门获取cookie,当程序专门请求页面

获取登录后的页面三种方式

实例session,使用session方发送post请求，在使用他登录后的页面
header中添加cookie键,值为cookie字符串
在请求方法中添加cookie参数，受字典形式的cookie。字典形式的cookie中的键是cookie的name,值是cookie的value

python 爬虫(cookie)相关推荐

Python爬虫——Cookie模拟登录
文章目录 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 2.Handler处理器 Python爬虫--Cookie模拟登录 1.Cookie模拟登录现在很多网站需要用户成功登录 ...
python爬虫——Cookie登录爬取豆瓣短评和影评及常见问题
python爬虫--Cookie登录爬取豆瓣短评和影评常见问题(本文已解决) 具体步骤一.获取网页源码短评.影评二.解析网页源码及爬取评论 1.短评网页解析 ①确定位置 2.短评爬取 ①名称爬 ...
python爬虫cookie池与ip绑定_Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
python爬虫cookie池与ip绑定_Python爬虫防封ip的一些技巧
在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了.在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了. 本文就如何解决这个问题总结出一些应对措 ...
python爬虫--cookie、防盗链、代理
处理cookie 1.cookie就是在浏览器登录页面的时候,你把你的的账号和密码输入,主机会接受到你的用户名和密码,然后校验正确性,如果用户名和密码正确,主机会向你的浏览器里面的cookie里面写入 ...
python中cookies怎么用_Cookie在python爬虫中怎么用？Cookielib又是什么？
我们登录一个网页或者软件的时候,都要输入账号才能进入界面,随后就可以看其中的内容了.Cookie就类似于担任一个审查员的身份.对想要访问人的身份进行大大小小的审核,合格的才能放任通行,之后我们就可以愉 ...
python爬虫 - Urllib库及cookie的使用
lz提示一点,python3中urllib包括了py2中的urllib+urllib2.[python2和python3的区别.转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它 ...
Python爬虫入门（6）：Cookie的使用
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
[python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

python 爬虫(cookie)

cookie和session区别

爬虫处理cookie和session

携带cookie的请求

处理cookie、session请求

请求登录之后的网站

不发送post请求，使用cookie获取登录后的页面

获取登录后的页面三种方式

python 爬虫(cookie)相关推荐

最新文章

热门文章