python 爬虫(cookie)
cookie和session区别
- cookie数据存放在客户浏览器上,session数据放在服务器上
- cookie不是很安全,别人可以分析放在本地的cookie并进行cookie欺骗
- session会在一定时间上保存在服务器。当访问增多,会比较占用服务器的性能。
- 单个cookie保存的数据不能超过4K,很多浏览器限制到一个站点最多保存20个cookie
爬虫处理cookie和session
带上cookie、session的优点:
能够请求到登录后页面
带上cookie、session的弊端:
- 不需要cookie的时候尽量不去使用cookie
- 但是为了获取登录后的页面,我们必须发送带有cookie的请求
一套cookie和session往往和一个用户对应
请求太快、请求次数太多、容易被服务器识别为爬虫
携带cookie的请求
携带一堆cookie进行请求,把cookie组成cookie池
处理cookie、session请求
requests提供了一个叫做session类,来实现客户端和服务端的会话保持
使用方法:
- 实例化一个session对象
- session发送get或者post请求
session = requests.session()
resp = session.get(url,headers)
请求登录之后的网站
未登录时我们无法直接通过url地址访问用户信息页
- 实例化session
- 先使用session发送请求,登录网站,把cookie保存在session中
- 再使用session请求登录之后才能访问的网站,session能够自动的携带登录成功是保存在其中的cookie,进行请求
import requests
session=requests.session()
port_url='http://www.renren.com/PLogin.do'
post_data={}
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"}
不发送post请求,使用cookie获取登录后的页面
- cookie过期时间很长的网站
- 在cookie过期之前能够拿到所有的数据,比较麻烦
- 配合其他程序一起使用,其他程序专门获取cookie,当程序专门请求页面
获取登录后的页面三种方式
- 实例session,使用session方发送post请求,在使用他登录后的页面
- header中添加cookie键,值为cookie字符串
- 在请求方法中添加cookie参数,受字典形式的cookie。字典形式的cookie中的键是cookie的name,值是cookie的value
python 爬虫(cookie)相关推荐
- Python爬虫——Cookie模拟登录
文章目录 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 2.Handler处理器 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 现在很多网站需要用户成功登录 ...
- python爬虫——Cookie登录爬取豆瓣短评和影评及常见问题
python爬虫--Cookie登录爬取豆瓣短评和影评 常见问题(本文已解决) 具体步骤 一.获取网页源码 短评.影评 二.解析网页源码及爬取评论 1.短评网页解析 ①确定位置 2.短评爬取 ①名称爬 ...
- python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
- python爬虫cookie池 与ip绑定_Python爬虫防封ip的一些技巧
在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了.在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了. 本文就如何解决这个问题总结出一些应对措 ...
- python爬虫--cookie、防盗链、代理
处理cookie 1.cookie就是在浏览器登录页面的时候,你把你的的账号和密码输入,主机会接受到你的用户名和密码,然后校验正确性,如果用户名和密码正确,主机会向你的浏览器里面的cookie里面写入 ...
- python中cookies怎么用_Cookie在python爬虫中怎么用?Cookielib又是什么?
我们登录一个网页或者软件的时候,都要输入账号才能进入界面,随后就可以看其中的内容了.Cookie就类似于担任一个审查员的身份.对想要访问人的身份进行大大小小的审核,合格的才能放任通行,之后我们就可以愉 ...
- python爬虫 - Urllib库及cookie的使用
lz提示一点,python3中urllib包括了py2中的urllib+urllib2.[python2和python3的区别.转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它 ...
- Python爬虫入门(6):Cookie的使用
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
- [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
最新文章
- buffer IO和direct IO
- Linux云自动化运维第十课
- MyBatis笔记——EhCache二级缓存
- 消息队列背后的设计思想
- C# 死锁的原理与排查方法详解
- C语言程序判断计算机的CPU大小端
- 遍历二叉树的全部方法(递归+非递归)
- 李宏毅机器学习(九)Multi-lingual BERT
- php cdr,win10彻底禁止cdr联网
- Linux操作问题解答
- 1w存银行一年多少利息_一百万存银行一年利息多少?提前取出利息怎么算?
- SAP 中 Webservice的发布和调用过程。
- Unity导出转换微信小游戏
- 多层线性模型和面板数据模型笔记(待完善,持续更)
- 吴军三部曲见识(三) 谈谈见识
- 油菜花系统服务器能删除内容吗,油菜花期蜂群管理要点
- http下载异常_荏苒项目二:配置(日志,异常,数据库,前端,跨域CORS)
- oracle中todate函数实例,pl/sql to_date 函数使用实例讲解
- python中ipaddress库用法详解
- 夏天开水果店怎么保存,水果店水果的保存方法
热门文章
- 世界各地主流,非主流搜索引擎以及功能性搜索引擎一览
- 互联网创业创意养成记5 - 剑走偏锋非正道
- PAT A1062 Talent and Virtue
- Python爬取药智网的中药材图谱网页
- homework530
- 计算机安装xp蓝屏怎么办,当我在笔记本电脑上安装XP时,出现蓝屏. 我该怎么解决?...
- WINDOWS系统文件祥解
- 禅道 配置(企业微信及云之家)群组机器人接收信息
- ERROR 1226 (42000):User 'root' has exceeded the 'max_questions' resource (current value: 2)
- 7-52 输出字符画:HAUT