部署蜘蛛

下面是部署Scrapy蜘蛛定期运行它们的一些方法。在本地机器中运行Scrapy蜘蛛对于(早期)开发阶段来说非常方便,但是当您需要执行长时间运行的蜘蛛或移动蜘蛛以继续在生产中运行时,这并非如此。这就是部署Scrapy蜘蛛的解决方案的用武之地。

部署Scrapy蜘蛛的热门选择是:

  • Scrapyd(开源)
  • Scrapy Cloud(基于云)

部署到Scrapyd服务器

Scrapyd是一个运行Scrapy蜘蛛的开源应用程序。它为服务器提供HTTP API,能够运行和监控Scrapy蜘蛛。

要将蜘蛛部署到Scrapyd,您可以使用scrapyd-client软件包提供的scrapyd-deploy工具。有关更多信息,请参阅scrapyd-deploy文档。

Scrapyd由一些Scrapy开发人员维护。

部署到云Scrapy 

Scrapy Cloud是由Scrapy背后的公司Scrapinghub提供的基于云的托管服务。

Scrapy Cloud无需设置和监控服务器,并提供了一个很好的用户界面来管理蜘蛛并查看已删除的项目,日志和统计信息。

要将蜘蛛部署到Scrapy Cloud,您可以使用shub命令行工具。有关更多信息,请参阅Scrapy Cloud文档。

Scrapy Cloud与Scrapyd兼容,可以根据需要在它们之间切换 - 从scrapy.cfg文件读取配置就像scrapyd-deploy

Scrapy部署蜘蛛爬虫项目相关推荐

  1. python爬虫步骤-Docker部署Python爬虫项目的方法步骤

    1) 首先安装docker: # 用 yum 安装并启动 yum install docker -y && systemctl start docker 2) 下载自定义镜像需要用到的 ...

  2. Python爬虫总结——Scrapy+Gerapy部署网络爬虫

    Python爬虫总结--从基础爬虫到Scrapy+Gerapy部署网络爬虫 前言 一.常用pip模块介绍 1.NumPy库 2.Pandas库 3.Requests库 4.BeautifulSoup库 ...

  3. scrapyd部署爬虫项目到LINUX服务器

    1,首先把scrapy爬虫项目上传到服务器 我的服务器架设在公司内网里.所以在这里使用WinSCP作为上传工具. 2,修改项目的配置文件scrapy.cfg 给爬虫项目指定分组,具体方法是在deplo ...

  4. Scrapy爬虫项目的管理部署

    前言 为了方便对爬虫项目的流程化管理,需要一款合适的工具.主要实现的功能有: 能对爬虫项目的管理做到"统一"."稳定"."方便": 能够查看 ...

  5. scrapyd部署_如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

    来自 Scrapy 官方账号的推荐 需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控 ...

  6. 006:开启Scrapy爬虫项目之旅

    上一篇文章介绍了Scrapy框架的安装及其目录结构和常用工具命令,相信大家也有了初步的认识. 本章将从实战编写来补充scrapy的基础知识 Items的编写: 使用Scrapy中的Item对象可以保存 ...

  7. scrapyd部署爬虫项目

    项目的环境 windows10系统 python版本:3.6.5 1.安装scrapy项目需要使用到的包 -- scrapyd 打开cmd命令行,输入pip install scrapyd ,回车 安 ...

  8. python scrapy爬虫遇见301_在Pycharm中运行Scrapy爬虫项目的基本操作

    目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...

  9. python爬虫反爬机制_Python Scrapy突破反爬虫机制(项目实践)

    对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据.但有些网站做了一些"反爬虫"处理,其网页内容不是静态 ...

最新文章

  1. java ibatis 锁表_oracle查看被锁的表和解锁
  2. 【Qt】Qt发布程序时,报错: could not find or load the Qt platform plugin xcb
  3. Android开发问题集锦
  4. jquery插件Loadmask
  5. java非递归方式实现快速排序
  6. C#程序代码行号设置
  7. 判断ipv6地址_#网络工程师#5分钟教你搞懂IPV6如何发现邻居
  8. python 做词云 -jupyter跟随王树义教程学习
  9. PYG教程【五】链路预测
  10. MATLAB生成FPGA COE文件之XILINX FPGA滤波器系数
  11. 图像滤波与滤波器基础知识
  12. linux查看db2存储过程,DB2查看存储过程里SQL语句的执行情况
  13. android访问服务器405,android – HTTP状态405 – 不允许的方法(jax-rs服务)
  14. cryptojs php 互通_如何实现PHP7和CryptoJS的AES加密方式互通?
  15. 武汉ISO27001认证的完整步骤
  16. iphone获取手机设备号
  17. 音质好的蓝牙耳机有哪些?音质好的蓝牙耳机测评
  18. Python爬取人民网夜读文案
  19. 阿里云oss文件服务器
  20. 线索二叉树的线索化、及遍历

热门文章

  1. 锦尚中国 授权文件解密
  2. 4.3 CISC和RISC的基本概念
  3. 好消息!IBM技术商用 家乐福食品可追溯 商权让消费增值
  4. Tushare使用分享(二)
  5. android出现应用程序未安装的解决办法
  6. 【istioctl】multicluster mesh 管理源码走读
  7. 使用python3爬去360图片
  8. 使用jigdo下载历史版本的debian镜像
  9. iOS Widget开发
  10. 《数据结构与算法》(三)- 如何估算时间复杂度