Python 爬虫 scrapy 反 反爬虫策略
转载自https://blog.csdn.net/mouday/article/details/80777256
爬虫策略:
1、动态User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息),使用中间件
class RandomUserAgentMiddleware(object):def process_request(self, request, spider):request.headers.setdefault('User-Agent', "xxx")
2、禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭
# 禁用cookies,防止某些网站根据Cookie来封锁爬虫。
COOKIES_ENABLED = False
3、 延迟下载(防止访问过于频繁,设置为 2秒 或更高)
# 设置下载延迟
DOWNLOAD_DELAY = 3
4、 缓存数据 Google Cache 和 Baidu Cache:如果可能的话,使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。
5、IP地址池:VPN和代理IP,现在大部分网站都是根据IP来ban的。
class RandomProxyMiddleware(object):def process_request(self, request, spider):request.meta["proxy"] = "127.0.0.1:8888"
6、 Crawlera(专用于爬虫的代理组件),正确配置和设置下载中间件后,项目所有的request都是通过crawlera发出。
DOWNLOADER_MIDDLEWARES = {'scrapy_crawlera.CrawleraMiddleware': 600
}CRAWLERA_ENABLED = True
CRAWLERA_USER = '注册/购买的UserKey'
CRAWLERA_PASS = '注册/购买的Password'
7.有些特殊的反爬措施要特殊处理
Python 爬虫 scrapy 反 反爬虫策略相关推荐
- python 定时执行 爬虫 模块_浅析python实现scrapy定时执行爬虫
项目需要程序能够放在超算中心定时运行,于是针对scrapy写了一个定时爬虫的程序main.py ,直接放在scrapy的存储代码的目录中就能设定时间定时多次执行. 最简单的方法:直接使用Timer类 ...
- 【入门级教程】python使用scrapy库实现爬虫
文章目录 搭建scrapy项目 安装scrapy 构造scrapy框架 构建一个爬虫 分析网页 观察网页源代码 学习网页结构(了解可以跳过) 学习网页表格(了解可以跳过) 学习XPath语法(了解可以 ...
- python爬虫scrapy安装_Python爬虫:Scrapy框架的安装和基本使用
大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...
- python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用(二)实战
目标抓取盗墓笔记小说网站上<盗墓笔记>这本书的书名.章节名.章节url,并存放到MongoDB中 1.Scrapy中settings.py的设置(先scrapy startproject ...
- python:scrapy 一个网站爬虫库
Scrapy是一个用于抓取网站和提取结构化数据的应用框架,可用于广泛的有用应用,如数据挖掘.信息处理或历史档案.也可以使用api提取数据,或者作为一个通用的web爬虫. 安装 C:\Users\lif ...
- 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
- Scrapy绕过反爬虫策略汇总
文章目录 一.Scrapy无法返回爬取内容的几种可能原因 1,ip封锁爬取 2,xpath路径不对 3,xpath路径出现font,tbody标签 4,xpath路径不够明确 5,robot协议 6, ...
- scrapy框架开发爬虫实战——反爬虫策略与反反爬虫策略
反爬虫.反反爬虫 简单低级的爬虫有一个很大的优点:速度快,伪装度低.如果你爬取的网站没有反爬机制,爬虫们可以非常简单粗暴地快速抓取大量数据,但是这样往往就导致一个问题,因为请求过多,很容易造成服务器过 ...
- python 下载文件 限速-Python网络爬虫---scrapy通用爬虫及反爬技巧
一.通用爬虫 通用爬虫一般有以下通用特性:爬取大量(一般来说是无限)的网站而不是特定的一些网站. 不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的.相反,其会限制爬取的时间及数量. ...
- python反反爬虫教学_爬虫进阶:反反爬虫技巧
主要针对以下四种反爬技术:Useragent过滤:模糊的Javascript重定向:验证码:请求头一致性检查. 高级网络爬虫技术:绕过 "403 Forbidden",验证码等 爬 ...
最新文章
- linux ora27040,使用RMAN recover database时遇到ORA-01119 ORA-27040 错误的解决办法
- php处理html5文件上传代码,HTML5中文件上传的代码
- IntelliSense: const char * 类型的实参与 LPCTSTR 类型的形参不兼容
- BigDecimal运算的工具类
- GPU Pro2 - 3.Procedural Content Generation on the GPU
- PHP格式化全国省市区列表
- [2021-07-19 内测NOIP] 操作(状压DP),异或(字典树),等级(线段树),矩阵(DP)
- 正则基础之——反向引用
- install常见问题
- [大数据 ]Apache大数据项目目录
- 用python实现列线图绘制
- 产品经理的自我修养—认知模式
- 《编码:隐匿在计算机软硬件背后的语言》读书笔记
- 敏捷顾问的MBTI体验:8个认知能力胜过4个字母组合
- Ubuntu中恢复rm命令误删文件(超级详细+亲测有效)
- 【操作系统】—I/O设备的基本概念和分类
- 【十四】【vlc-android】aout音频输出模块源码实现分析【Part 2】
- 数据库中的常见关键字的用法
- PHP学习笔记:环境变量
- matlab逐步积分,第17章 隐式逐步积分法.ppt