cookie和session区别

  • cookie数据存放在客户浏览器上,session数据放在服务器上
  • cookie不是很安全,别人可以分析放在本地的cookie并进行cookie欺骗
  • session会在一定时间上保存在服务器。当访问增多,会比较占用服务器的性能。
  • 单个cookie保存的数据不能超过4K,很多浏览器限制到一个站点最多保存20个cookie

爬虫处理cookie和session

带上cookie、session的优点:

能够请求到登录后页面

带上cookie、session的弊端:

  • 不需要cookie的时候尽量不去使用cookie
  • 但是为了获取登录后的页面,我们必须发送带有cookie的请求

一套cookie和session往往和一个用户对应

请求太快、请求次数太多、容易被服务器识别为爬虫

携带cookie的请求

携带一堆cookie进行请求,把cookie组成cookie池

处理cookie、session请求

requests提供了一个叫做session类,来实现客户端和服务端的会话保持

使用方法:

  1. 实例化一个session对象
  2. session发送get或者post请求
session = requests.session()
resp = session.get(url,headers)

请求登录之后的网站

未登录时我们无法直接通过url地址访问用户信息页

  • 实例化session
  • 先使用session发送请求,登录网站,把cookie保存在session中
  • 再使用session请求登录之后才能访问的网站,session能够自动的携带登录成功是保存在其中的cookie,进行请求
import requests
session=requests.session()
port_url='http://www.renren.com/PLogin.do'
post_data={}
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"}

不发送post请求,使用cookie获取登录后的页面

  • cookie过期时间很长的网站
  • 在cookie过期之前能够拿到所有的数据,比较麻烦
  • 配合其他程序一起使用,其他程序专门获取cookie,当程序专门请求页面

获取登录后的页面三种方式

  • 实例session,使用session方发送post请求,在使用他登录后的页面
  • header中添加cookie键,值为cookie字符串
  • 在请求方法中添加cookie参数,受字典形式的cookie。字典形式的cookie中的键是cookie的name,值是cookie的value

python 爬虫(cookie)相关推荐

  1. Python爬虫——Cookie模拟登录

    文章目录 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 2.Handler处理器 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 现在很多网站需要用户成功登录 ...

  2. python爬虫——Cookie登录爬取豆瓣短评和影评及常见问题

    python爬虫--Cookie登录爬取豆瓣短评和影评 常见问题(本文已解决) 具体步骤 一.获取网页源码 短评.影评 二.解析网页源码及爬取评论 1.短评网页解析 ①确定位置 2.短评爬取 ①名称爬 ...

  3. python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...

  4. python爬虫cookie池 与ip绑定_Python爬虫防封ip的一些技巧

    在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了.在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了. 本文就如何解决这个问题总结出一些应对措 ...

  5. python爬虫--cookie、防盗链、代理

    处理cookie 1.cookie就是在浏览器登录页面的时候,你把你的的账号和密码输入,主机会接受到你的用户名和密码,然后校验正确性,如果用户名和密码正确,主机会向你的浏览器里面的cookie里面写入 ...

  6. python中cookies怎么用_Cookie在python爬虫中怎么用?Cookielib又是什么?

    我们登录一个网页或者软件的时候,都要输入账号才能进入界面,随后就可以看其中的内容了.Cookie就类似于担任一个审查员的身份.对想要访问人的身份进行大大小小的审核,合格的才能放任通行,之后我们就可以愉 ...

  7. python爬虫 - Urllib库及cookie的使用

    lz提示一点,python3中urllib包括了py2中的urllib+urllib2.[python2和python3的区别.转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它 ...

  8. Python爬虫入门(6):Cookie的使用

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  9. [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租

    我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

最新文章

  1. buffer IO和direct IO
  2. Linux云自动化运维第十课
  3. MyBatis笔记——EhCache二级缓存
  4. 消息队列背后的设计思想
  5. C# 死锁的原理与排查方法详解
  6. C语言程序判断计算机的CPU大小端
  7. 遍历二叉树的全部方法(递归+非递归)
  8. 李宏毅机器学习(九)Multi-lingual BERT
  9. php cdr,win10彻底禁止cdr联网
  10. Linux操作问题解答
  11. 1w存银行一年多少利息_一百万存银行一年利息多少?提前取出利息怎么算?
  12. SAP 中 Webservice的发布和调用过程。
  13. Unity导出转换微信小游戏
  14. 多层线性模型和面板数据模型笔记(待完善,持续更)
  15. 吴军三部曲见识(三) 谈谈见识
  16. 油菜花系统服务器能删除内容吗,油菜花期蜂群管理要点
  17. http下载异常_荏苒项目二:配置(日志,异常,数据库,前端,跨域CORS)
  18. oracle中todate函数实例,pl/sql to_date 函数使用实例讲解
  19. python中ipaddress库用法详解
  20. 夏天开水果店怎么保存,水果店水果的保存方法

热门文章

  1. 世界各地主流,非主流搜索引擎以及功能性搜索引擎一览
  2. 互联网创业创意养成记5 - 剑走偏锋非正道
  3. PAT A1062 Talent and Virtue
  4. Python爬取药智网的中药材图谱网页
  5. homework530
  6. 计算机安装xp蓝屏怎么办,当我在笔记本电脑上安装XP时,出现蓝屏. 我该怎么解决?...
  7. WINDOWS系统文件祥解
  8. 禅道 配置(企业微信及云之家)群组机器人接收信息
  9. ERROR 1226 (42000):User 'root' has exceeded the 'max_questions' resource (current value: 2)
  10. 7-52 输出字符画:HAUT