看了回答区,基本的反爬虫策略都提到了,下面说几个作为补充。

1、对于处理验证码,爬虫爬久了通常网站的处理策略就是让你输入验证码验证是否机器人,此时有三种解决方法:第一种把验证码down到本地之后,手动输入验证码验证,此种成本相对较高,而且不能完全做到自动抓取,需要人为干预。

第二种图像识别验证码,自动填写验证,但是现在的情况是大部分验证码噪声较多复杂度大,对于像我这样对图像识别不是很熟悉的人很难识别出正确的验证码。

第三种也是最实用的一种,接入自动打码平台,个人感觉比上两种方法好些。

2、多账号反爬,有很多的网站会通过同一个用户单位时间内操作频次来判断是否机器人,比如像新浪微博等网站。这种情况下我们就需要先测试单用户抓取阈值,然后在阈值前切换账号其他用户,如此循环即可。当然,新浪微博反爬手段不止是账号,还包括单ip操作频次等。

3、分布式爬虫,分布式能在一定程度上起到反爬虫的作用,当然相对于反爬虫分布式最大的作用还是能做到高效大量的抓取。

4、保存cookies,记录用户的状态,在模拟登陆十分麻烦的情况下,我们不妨直接在web上登陆之后取下cookie并保存然后带上cookie做爬虫,但这不是长久的方法,而且cookie隔一段时间可能失效。有的网站会根据cookie中的一些值去判断是否机器人,这个需要自己不断测试,比如豆瓣。

5、注意配合移动端、web端以及桌面版,其中web端包括m站即手机站和pc站,往往是pc站的模拟抓取难度大于手机站,所以在m站和pc站的资源相同的情况下优先考虑抓取m站。同时如果无法在web端抓取,不可忽略在app以及桌面版的也可以抓取到目标数据资源。

应对反爬虫的策略,首先要发现网站的反爬虫手段是什么?这个发现的过程就是不断测试的过程,有点类似于A/B测试,弄清楚它的反爬虫机制,就成功了一大半了。

很多人问我如何学习Python爬虫,为此我整理编写了一本Python爬虫相关的电子书,主要包括Python入门、Python爬虫入门到进阶、Python爬虫面试总结等等。可以在微信公众号【路人甲TM】后台回复关键词【1】获取这本电子书。

python应对反爬虫策略_如何应对网站反爬虫策略?如何高效地爬大量数据?相关推荐

  1. python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...

    说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...

  2. python 反爬策略_如何应对网站反爬虫策略?如何高效地爬大量数据?

    爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCl ...

  3. python爬虫反爬 对方是如何丧心病狂的通过css_如何应对网站反爬虫策略?如何高效地爬大量数据?...

    爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCl ...

  4. python反爬虫机制_盘点一些网站的反爬虫机制

    因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序.网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来. 网络爬虫的难点其实并不在于爬虫本身.而是网站方为了避免 ...

  5. python分布式爬虫系统_如何构建一个分布式爬虫:理论篇

    前言 本系列文章计划分三个章节进行讲述,分别是理论篇.基础篇和实战篇.理论篇主要为构建分布式爬虫而储备的理论知识,基础篇会基于理论篇的知识写一个简易的分布式爬虫,实战篇则会以微博为例,教大家做一个比较 ...

  6. python爬虫可以爬取哪些有用的东西_有哪些网站用爬虫爬取能得到很有价值的数据?...

    有哪些网站用爬虫爬取能得到很有价值的数据? 题主是个web程序员,最近想转去做数据分析,先练习的爬虫(python),各种爬取技巧以及多网站爬取等已经掌握,但发现转方向最无奈的是方向(要抓什么数据来干 ...

  7. python携程酒店评论_携程酒店评论爬虫心得

    携程酒店评论爬虫心得 发布时间:2018-09-02 15:58, 浏览次数:613 携程酒店评论爬虫心得 这次爬取数据,遇到了不少的困难,也走了很多弯路,特此写下帮助记忆.以下基本是我爬取数据的过程 ...

  8. gpo 软件限制策略_什么是GPO(组策略对象)? 如何在Microsoft Windows中使用,更改GPO?...

    gpo 软件限制策略 Group Policy is a feature provided by Windows operating systems in order to manage the di ...

  9. 金蝶专业版怎么反过账当月_金蝶专业版怎么反过账

    金蝶专业版怎么反过账 1.进入主界面 2.同时按下ctrl+F11键-勾选"部分凭证反过账",如果是要全部反过账就可以不选 3.设置要反过账凭证字号,日期-完成 4.完成反过账后, ...

最新文章

  1. 22. Node.Js Buffer类(缓冲区)-(二)
  2. STM32 驱动例程
  3. 注释很全的抽象工厂(没用简单工厂优化)
  4. JZOJ 1319. 邮递员
  5. php 时间操作归类
  6. Eclipse + Apache Axis2 发布RESTful WebService(一)基础知识
  7. python --函数
  8. 使用php框架文件上传,Laravel框架文件上传功能实现方法示例
  9. 编程实现 带符号减法溢出判断
  10. 简单的用堆栈实现的表达式计算
  11. 神器--通过Workspaces来编辑本地文件
  12. Android 屏幕实现水龙头事件
  13. Fizz Buzz 面试题
  14. 库路径及编译时查找头文件设置
  15. 树莓派 opencv 调用摄像头
  16. 编程模拟高尔顿钉板(正态分布)C++
  17. 深度剖析为何选取相关性系数评价因子
  18. JlinkV9 修复相关
  19. 基于深度表征学习特征的抗癌肽预测
  20. java外包恒大,JAVA开发工程师

热门文章

  1. 联想x系与sr系列服务器比较,傲捷联想服务器SR550如何挑选
  2. python随机字符串
  3. github免费搭建个人博客
  4. 代码编程一条街,前端后端谁为先?
  5. 我理解的数据库系统的三级模式与两层映像
  6. ubuntu任务栏不见了
  7. python打开和关闭图片_使用python进行基本的图像操作与处理
  8. Linux环境下应用生成图片中出现乱码的问题处理
  9. 【Zookeeper读书笔记-2】序列化框架Jute
  10. 鼠标箭头改为手的形状