转载自https://blog.csdn.net/mouday/article/details/80777256

爬虫策略:

1、动态User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息),使用中间件

class RandomUserAgentMiddleware(object):def process_request(self, request, spider):request.headers.setdefault('User-Agent', "xxx")

2、禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭

# 禁用cookies,防止某些网站根据Cookie来封锁爬虫。
COOKIES_ENABLED = False

3、 延迟下载(防止访问过于频繁,设置为 2秒 或更高)

# 设置下载延迟
DOWNLOAD_DELAY = 3

4、 缓存数据 Google Cache 和 Baidu Cache:如果可能的话,使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。

5、IP地址池:VPN和代理IP,现在大部分网站都是根据IP来ban的。

class RandomProxyMiddleware(object):def process_request(self, request, spider):request.meta["proxy"] = "127.0.0.1:8888"

6、 Crawlera(专用于爬虫的代理组件),正确配置和设置下载中间件后,项目所有的request都是通过crawlera发出。

DOWNLOADER_MIDDLEWARES = {'scrapy_crawlera.CrawleraMiddleware': 600
}CRAWLERA_ENABLED = True
CRAWLERA_USER = '注册/购买的UserKey'
CRAWLERA_PASS = '注册/购买的Password'

7.有些特殊的反爬措施要特殊处理

Python 爬虫 scrapy 反 反爬虫策略相关推荐

  1. python 定时执行 爬虫 模块_浅析python实现scrapy定时执行爬虫

    项目需要程序能够放在超算中心定时运行,于是针对scrapy写了一个定时爬虫的程序main.py ,直接放在scrapy的存储代码的目录中就能设定时间定时多次执行. 最简单的方法:直接使用Timer类 ...

  2. 【入门级教程】python使用scrapy库实现爬虫

    文章目录 搭建scrapy项目 安装scrapy 构造scrapy框架 构建一个爬虫 分析网页 观察网页源代码 学习网页结构(了解可以跳过) 学习网页表格(了解可以跳过) 学习XPath语法(了解可以 ...

  3. python爬虫scrapy安装_Python爬虫:Scrapy框架的安装和基本使用

    大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...

  4. python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用(二)实战

    目标抓取盗墓笔记小说网站上<盗墓笔记>这本书的书名.章节名.章节url,并存放到MongoDB中 1.Scrapy中settings.py的设置(先scrapy startproject ...

  5. python:scrapy 一个网站爬虫库

    Scrapy是一个用于抓取网站和提取结构化数据的应用框架,可用于广泛的有用应用,如数据挖掘.信息处理或历史档案.也可以使用api提取数据,或者作为一个通用的web爬虫. 安装 C:\Users\lif ...

  6. 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...

    第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...

  7. Scrapy绕过反爬虫策略汇总

    文章目录 一.Scrapy无法返回爬取内容的几种可能原因 1,ip封锁爬取 2,xpath路径不对 3,xpath路径出现font,tbody标签 4,xpath路径不够明确 5,robot协议 6, ...

  8. scrapy框架开发爬虫实战——反爬虫策略与反反爬虫策略

    反爬虫.反反爬虫 简单低级的爬虫有一个很大的优点:速度快,伪装度低.如果你爬取的网站没有反爬机制,爬虫们可以非常简单粗暴地快速抓取大量数据,但是这样往往就导致一个问题,因为请求过多,很容易造成服务器过 ...

  9. python 下载文件 限速-Python网络爬虫---scrapy通用爬虫及反爬技巧

    一.通用爬虫 通用爬虫一般有以下通用特性:爬取大量(一般来说是无限)的网站而不是特定的一些网站. 不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的.相反,其会限制爬取的时间及数量. ...

  10. python反反爬虫教学_爬虫进阶:反反爬虫技巧

    主要针对以下四种反爬技术:Useragent过滤:模糊的Javascript重定向:验证码:请求头一致性检查. 高级网络爬虫技术:绕过 "403 Forbidden",验证码等 爬 ...

最新文章

  1. linux ora27040,使用RMAN recover database时遇到ORA-01119 ORA-27040 错误的解决办法
  2. php处理html5文件上传代码,HTML5中文件上传的代码
  3. IntelliSense: const char * 类型的实参与 LPCTSTR 类型的形参不兼容
  4. BigDecimal运算的工具类
  5. GPU Pro2 - 3.Procedural Content Generation on the GPU
  6. PHP格式化全国省市区列表
  7. [2021-07-19 内测NOIP] 操作(状压DP),异或(字典树),等级(线段树),矩阵(DP)
  8. 正则基础之——反向引用
  9. install常见问题
  10. [大数据 ]Apache大数据项目目录
  11. 用python实现列线图绘制
  12. 产品经理的自我修养—认知模式
  13. 《编码:隐匿在计算机软硬件背后的语言》读书笔记
  14. 敏捷顾问的MBTI体验:8个认知能力胜过4个字母组合
  15. Ubuntu中恢复rm命令误删文件(超级详细+亲测有效)
  16. 【操作系统】—I/O设备的基本概念和分类
  17. 【十四】【vlc-android】aout音频输出模块源码实现分析【Part 2】
  18. 数据库中的常见关键字的用法
  19. PHP学习笔记:环境变量
  20. matlab逐步积分,第17章 隐式逐步积分法.ppt

热门文章

  1. 被称为“圣经”的《计算机体系结构》
  2. 计算机技术专业求职简历,计算机技术专业求职简历模板
  3. 新的信息工作者简历或简历模板
  4. 电路基础知识 -- 虚短和虚断
  5. swfobject的使用
  6. 电脑硬盘损坏如何修复?自己动手就能解决
  7. 数学建模算法:层次分析法之如何选择旅游目的地
  8. Excel 新手向个人练习-1 VLOOKUP,COUNTIF
  9. oracle查询创建用户,Oracle创建设置查询权限用户
  10. FPGA驱动ESP8266 WiFi模块