一、crawlera平台注册

首先申明,注册是免费的,使用的话除了一些特殊定制外都是free的。

1、登录其网站 https://dash.scrapinghub.com/account/signup/

填写用户名、密码、邮箱,注册一个crawlera账号并激活

2、创建Organizations,然后添加crawlear服务

然后点击 +Service ,在弹出的界面点击Crawlear,输入名字,选择信息就创建成功了。

创建成功过后点击你的Crawlear名字便可以看到API的详细信息。

二、部署到srcapy项目

1、安装scarpy-crawlera

pip install 、easy_install 随便你采用什么安装方式都可以

pip install scrapy-crawlera

2、修改settings.py

如果你之前设置过代理ip,那么请注释掉,加入crawlera的代理

DOWNLOADER_MIDDLEWARES = {# 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,# 'partent.middlewares.ProxyMiddleware': 100,
'scrapy_crawlera.CrawleraMiddleware': 600
}

为了是crawlera生效,需要添加你创建的api信息(如果填写了API key的话,pass填空字符串便可)

CRAWLERA_ENABLED = True
CRAWLERA_USER = '<API key>'
CRAWLERA_PASS = ''

为了达到更高的抓取效率,可以禁用Autothrottle扩展和增加并发请求的最大数量,以及设置下载超时,代码如下

CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 32
AUTOTHROTTLE_ENABLED = False
DOWNLOAD_TIMEOUT = 600

如果在代码中设置有 DOWNLOAD_DELAY的话,需要在setting.py中添加

CRAWLERA_PRESERVE_DELAY = True

如果你的spider中保留了cookies,那么需要在Headr中添加

DEFAULT_REQUEST_HEADERS = {# 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',# 'Accept-Language': 'zh-CN,zh;q=0.8','X-Crawlera-Cookies': 'disable'
}

三、运行爬虫

这些都设置好了过后便可以运行你的爬虫了。这时所有的request都是通过crawlera发出的,信息如下

更多的crawlera信息请参考官方文档:http://doc.scrapinghub.com/index.html

https://my.oschina.net/jhao104/blog/512384

scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP相关推荐

  1. win7 ie10代理设置不能用 设置完代理后点确定 回头再打开代理设置对钩并没有选上

    IE代理服务器设置失效,比如勾选上了代理设置,或者改了代理服务器的端口,改好后关闭重新打开,发现没有更改设置, 可以注册表里cmd运行窗口输入 regedit HKEY_CURRENT_USER/So ...

  2. python爬虫天气实例scrapy_python爬虫之利用scrapy框架抓取新浪天气数据

    scrapy中文官方文档:点击打开链接 Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘 ...

  3. 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件

    一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...

  4. Scrapy爬虫实战:使用代理访问

    Scapy爬虫实战:使用代理访问 Middleware 中间件设置代理 middlewares.py settings.py spider 配置meta使用proxy 快代理 前面我们简单的设置了he ...

  5. Scrapy爬虫设置代理ip

    在应用爬虫的时候我们经常会遇到ip被封的情况,这样我们想要的数据就不能及时下载下来,那么怎么办呢?当然是使用代理ip了,下面来看看scrapy中怎么使用代理ip. 一.开放代理 import rand ...

  6. scrapy爬虫-代理设置

    scrapy爬虫-代理设置 1.请求头User-Agent代理设置** 1.1 找到middlewares.py 1.2 找到一个绑定的DownloaderMiddlewar(生成scrapy爬虫目录 ...

  7. 爬虫实战(一)—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据

    概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider 包括了项目的所有代码. 此篇文 ...

  8. 用scrapy爬虫设置了ip代理报错是怎么回事

    那么遇到这种情况大家也不用慌,我们可以采取以下措施: 1.放慢爬取速度,减少对于目标网站带来的压力,但会减少单位时间类的爬取量.测试出网站设置的限制速度阈值,设置合理的访问速度. 2.时间间隔访问,对 ...

  9. Scrapy爬虫及案例剖析

    来自:ytao 由于互联网的极速发展,所有现在的信息处于大量堆积的状态,我们既要向外界获取大量数据,又要在大量数据中过滤无用的数据.针对我们有益的数据需要我们进行指定抓取,从而出现了现在的爬虫技术,通 ...

最新文章

  1. 硕士生两年发14篇论文!获浙大最高层次奖学金!
  2. svn命令行使用说明
  3. C/C++中extern关键字详解与应用
  4. 【玩转cocos2d-x之九】动作类CCAction
  5. 5个Vue.js项目的令人敬畏的模板
  6. java遍历数组练习(for循环、foreach)
  7. Flask安装首页显示
  8. .ashx文件与.ashx.cs
  9. 《30天自制操作系统》03_day_学习笔记
  10. motion blur matlab,Motion Blur app
  11. java数组函数_Java数组
  12. MFC——在共享DLL中使用MFC、在静态库中使用MFC
  13. 安装rational rose软件详细教程(不用注册账号)
  14. hencoder学习自定义view(1)
  15. win10跳过计算机密码,win10开机密码忘了怎么办
  16. 大数据与云计算、物联网三者的区别和关联
  17. win8连接wifi成功但受限制_win8平板电脑魔兽评测 Win8平板Pi游戏平板电脑测评PO W1流畅运行...
  18. Unreal Engin_Maya插件ArtV1_001初认Artv1创建一个带绑定的人物对其进行简单的设置
  19. 输入框内只能输入数字,输入其他内容不显示
  20. 买了腾讯云服务器怎么ping,腾讯云服务器如何禁止Ping的功能

热门文章

  1. HUST1024 dance party(最大流)
  2. CUBRID学习笔记 42 Hierarchical QuerySQL层级查询
  3. 关于深度学习的一点理解
  4. web笔记Error:That IP address
  5. 编程方法学9:字符串
  6. CSDN:Markdown extra grammar
  7. 程序基础:数据结构(郝斌讲解)(4)
  8. c++ try catch
  9. 【Leetcode】创建链表
  10. Win10下使用HDFView查看hdf5文件