python3爬虫系列20之反爬需要登录的网站三种处理方式

1.前言

在上一篇文章中,讲了python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用,实际上这是属于反爬中的一个了,在数据采集的过程中,基本上经常遇到这些情况,所以,如果要写持久型采集方案,多要采用这些方式。

在以往的案例中,我们都是爬那些不需要登录或者登陆要求不高的网站。

那么当你在爬某些网站的时候,需要你登录才可以获取数据,怎么办?

登录的常见方法无非是这两种

  • 1、让你输入 帐号和密码登录
  • 2、让你输入 帐号密码+验证码登录

今天先说第一种问题的处理办法~

第一招Cookie法:requests直接携带cookies信息

简单来说
你平常在网站的时,你只要登录一次,就可以一直看到你想要的内容,过了一阵子才需要再次登录。或者下次打开仍然在登录状态中的?

因为就是每一个使用这个网站的人,服务器都会给他一个 Cookie,那么下次你再请求数据的时候,你顺带把这个 Cookie 传过去,服务器一看有登录过直接返回数据给他。

【Cookie 的时长周期是服务器那边决定的,有的时候过去了就需要重新登录。】

拿去某个网站的个人Cookie 信息?

首先使用你的账号密码,登录该爬虫目标网站,然后

python3爬虫系列20之反爬需要登录的网站三种处理方式相关推荐

  1. python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用

    python3爬虫系列19之随机User-Agent 和ip代理池的使用 我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事!!! 1. 前言 比如随着我们爬虫的速度 ...

  2. python3爬虫系列16之多线程爬取汽车之家批量下载图片

    python3爬虫系列16之多线程爬取汽车之家批量下载图片 1.前言 上一篇呢,python3爬虫系列14之爬虫增速多线程,线程池,队列的用法(通俗易懂),主要介绍了线程,多线程,和两个线程池的使用. ...

  3. Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二

    文章目录 说说这个网站 今天要爬去的网页 反爬措施展示 爬取关键信息 找关键因素 处理汽车参数 关键字破解 入库操作 小扩展:格式化JS 思路汇总 关注公众账号 说说这个网站 汽车之家,反爬神一般的存 ...

  4. python3爬虫系列之使用requests爬取LOL英雄图片

    我们最终目的就是要把抓取到的图片保存到本地,所以先写一个保存图片的方法(可以保存任何二进制文件).注意在windows下文件命名包含/ | ?可能会发生错误,有的英雄皮肤名称确实包含/,所以这里使用正 ...

  5. python3爬虫系列21之selenium自动化登录163邮箱并读取未读邮件内容

    python3爬虫系列21之selenium自动化登录163邮箱并读取未读邮件内容 1.前言 前面在 python3爬虫系列20之反爬需要登录的网站三种处理方式中介绍的第三种方法,使用自动化测试工具s ...

  6. python3爬虫系列24之重庆微博地铁客运量爬取且可视化输出

    python3爬虫系列24之重庆微博地铁客运量爬取和可视化 1.前言 在python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据里面,我们既是又搞selenium自动化,又 ...

  7. python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片

    python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片 1.前言 在上一篇文章urllib使用:根据关键词自动爬取下载百度图片 当中,我们已经分析过了百度图片的搜索URL的变化 ...

  8. python3爬虫系列08之新版动态智联招聘并存取数据库进行可视化分析

    python3爬虫系列08之新版动态智联爬取和存取数据库进行可视化分析 本篇是面向新版动态智联爬虫,数据存储到Mysql数据库,最后使用pyecharts读取并可视化分析. 在这之前,上一篇说的是 p ...

  9. Python爬虫六:字体反爬处理(猫眼+汽车之家)-2018.10

    环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 ---全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Djang ...

  10. python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据

    python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据 1.前言 上一篇是一个 python3爬虫系列22之selenium模拟登录需要验证码的微博且抓取数据, 我们是首 ...

最新文章

  1. 低噪声放大器和高功放的区别
  2. “掌上神策”上线,数据解读随时随地
  3. 谷歌浏览器32位版本安装包_Windows 10 OEM渠道告别32位版本 这意味着什么?
  4. VHDL设计出租车计价器
  5. hbase regions_使用Regions ADF 11g进行Master Detail CRUD操作
  6. 鱼眼镜头的distortion校正【matlab】
  7. java spi技术,Java SPI机制
  8. Bootstrap3 带提示的进度条
  9. android 支付宝 记账本,使用支付宝记账----懒人的最佳记账模式
  10. 卧式单面多轴钻孔组合机床动力滑台液压系统的设计
  11. oc引导win方法_适配自己的OC引导一键生成Opencore Generation X使用指南
  12. 康泰克音源采样器完整版-Native Instruments Kontakt 6.5.3 WiN-MAC
  13. python在编程语言中排第几_世界公认的十大编程语言,Python居然排第二
  14. 三角网导线平差实例_三角网近似平差及边长计算表
  15. 51单片机简单乐曲演奏(青花瓷)
  16. 高级软件工程第九次作业:东理三剑客团队作业-随笔5
  17. 关于QPS高并发,你了解多少?
  18. 设置360浏览器的背景色为绿豆色或护眼色
  19. python趣味程序_知道了这个,你也能写出 Python 趣味小程序
  20. 多边形向内收缩指定距离的实现

热门文章

  1. 感性电路电流计算_220和380V功率和电流计算知识。
  2. 围棋人机大战属于计算机在什么方面的应用,新华社评围棋人机大战:不怕电脑记性好 就怕爱学习...
  3. 银联在线php支付接口,PHP网站在线银联支付实现大额付款案例
  4. 手机python30编程教程入门_Python新手入门教程_在手机上就能学习编程的软件
  5. 免费手机电脑同屏神器——Mirroid
  6. h5项目解决苹果手机iOS系统字体放大问题
  7. 微信订阅号利用订阅号助手发布信息
  8. 函数求和公式计算机出库入库,Excel 库存统计相关函数及制作库存统计表
  9. PX4模块设计之九:PX4飞行模式简介
  10. 基于Java毕业设计大学生旅游拼团网站源码+系统+mysql+lw文档+部署软件