Python 爬虫 scrapy 反反爬虫策略

转载自https://blog.csdn.net/mouday/article/details/80777256

爬虫策略:

1、动态User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）,使用中间件

class RandomUserAgentMiddleware(object):def process_request(self, request, spider):request.headers.setdefault('User-Agent', "xxx")

2、禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭

# 禁用cookies，防止某些网站根据Cookie来封锁爬虫。
COOKIES_ENABLED = False

3、延迟下载（防止访问过于频繁，设置为 2秒或更高）

# 设置下载延迟
DOWNLOAD_DELAY = 3

4、缓存数据 Google Cache 和 Baidu Cache：如果可能的话，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。

5、IP地址池：VPN和代理IP，现在大部分网站都是根据IP来ban的。

class RandomProxyMiddleware(object):def process_request(self, request, spider):request.meta["proxy"] = "127.0.0.1:8888"

6、 Crawlera（专用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出。

DOWNLOADER_MIDDLEWARES = {'scrapy_crawlera.CrawleraMiddleware': 600
}CRAWLERA_ENABLED = True
CRAWLERA_USER = '注册/购买的UserKey'
CRAWLERA_PASS = '注册/购买的Password'

7.有些特殊的反爬措施要特殊处理

Python 爬虫 scrapy 反反爬虫策略相关推荐

python 定时执行爬虫模块_浅析python实现scrapy定时执行爬虫
项目需要程序能够放在超算中心定时运行,于是针对scrapy写了一个定时爬虫的程序main.py ,直接放在scrapy的存储代码的目录中就能设定时间定时多次执行. 最简单的方法:直接使用Timer类 ...
【入门级教程】python使用scrapy库实现爬虫
文章目录搭建scrapy项目安装scrapy 构造scrapy框架构建一个爬虫分析网页观察网页源代码学习网页结构(了解可以跳过) 学习网页表格(了解可以跳过) 学习XPath语法(了解可以 ...
python爬虫scrapy安装_Python爬虫:Scrapy框架的安装和基本使用
大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...
python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用（二）实战
目标抓取盗墓笔记小说网站上<盗墓笔记>这本书的书名.章节名.章节url,并存放到MongoDB中 1.Scrapy中settings.py的设置(先scrapy startproject ...
python：scrapy 一个网站爬虫库
Scrapy是一个用于抓取网站和提取结构化数据的应用框架,可用于广泛的有用应用,如数据挖掘.信息处理或历史档案.也可以使用api提取数据,或者作为一个通用的web爬虫. 安装 C:\Users\lif ...
第三百四十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
Scrapy绕过反爬虫策略汇总
文章目录一.Scrapy无法返回爬取内容的几种可能原因 1,ip封锁爬取 2,xpath路径不对 3,xpath路径出现font,tbody标签 4,xpath路径不够明确 5,robot协议 6, ...
scrapy框架开发爬虫实战——反爬虫策略与反反爬虫策略
反爬虫.反反爬虫简单低级的爬虫有一个很大的优点:速度快,伪装度低.如果你爬取的网站没有反爬机制,爬虫们可以非常简单粗暴地快速抓取大量数据,但是这样往往就导致一个问题,因为请求过多,很容易造成服务器过 ...
python 下载文件限速-Python网络爬虫---scrapy通用爬虫及反爬技巧
一.通用爬虫通用爬虫一般有以下通用特性:爬取大量(一般来说是无限)的网站而不是特定的一些网站. 不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的.相反,其会限制爬取的时间及数量. ...
python反反爬虫教学_爬虫进阶：反反爬虫技巧
主要针对以下四种反爬技术:Useragent过滤:模糊的Javascript重定向:验证码:请求头一致性检查. 高级网络爬虫技术:绕过 "403 Forbidden",验证码等爬 ...

Python 爬虫 scrapy 反反爬虫策略

爬虫策略:

Python 爬虫 scrapy 反反爬虫策略相关推荐

最新文章

热门文章

Python 爬虫 scrapy 反 反爬虫策略

爬虫策略:

Python 爬虫 scrapy 反 反爬虫策略相关推荐

最新文章

热门文章

Python 爬虫 scrapy 反反爬虫策略

Python 爬虫 scrapy 反反爬虫策略相关推荐