Scrapyd部署Scrapy框架项目

1. scrapyd的介绍

scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API（即：post请求的webapi）来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们。

2. scrapyd的安装

scrapyd服务: pip install scrapyd
scrapyd客户端: pip install scrapyd-client

3. 启动scrapyd服务

在scrapy项目路径下 启动scrapyd的命令：sudo scrapyd 或 scrapyd
启动之后就可以打开本地运行的scrapyd，浏览器中访问本地6800端口可以查看scrapyd的监控界面

点击job查看任务监控界面

4. scrapy项目部署

4.1 配置需要部署的项目

编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中，就配置该项目的该文件)

 [deploy:部署名(部署名可以自行定义)]url = http://localhost:6800/project = 项目名(创建爬虫项目时使用的名称)

4.2 部署项目到scrapyd

同样在scrapy项目路径下执行：

scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称

部署成功之后就可以看到部署的项目:

4.3 管理scrapy项目

启动项目：

curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name

关闭爬虫：

curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid

注意：curl是命令行工具，如果没有则需要额外安装

4.4 使用requests模块控制scrapy项目

import requests# 启动爬虫
url = 'http://localhost:6800/schedule.json'
data = {'project': 项目名,'spider': 爬虫名,
}
resp = requests.post(url, data=data)# 停止爬虫
url = 'http://localhost:6800/cancel.json'
data = {'project': 项目名,'job': 启动爬虫时返回的jobid,
}
resp = requests.post(url, data=data)

5. scrapyd的其他webapi

curl http://localhost:6800/listprojects.json （列出项目）
curl http://localhost:6800/listspiders.json?project=myspider （列出爬虫）
curl http://localhost:6800/listjobs.json?project=myspider （列出job）
curl http://localhost:6800/cancel.json -d project=myspider -d job=tencent （终止爬虫，该功能会有延时或不能终止爬虫的情况，此时可用kill -9杀进程的方式中止）
scrapyd还有其他webapi，百度搜索了解更多

Scrapyd部署Scrapy框架项目相关推荐

Scrapyd部署scrapy项目
scrapyd部署scrapy项目 1. scrapyd的介绍 2. scrapyd的安装 3. 启动scrapyd服务 4. scrapy项目部署 4.1 配置需要部署的项目 4.2 部署项目到sc ...
scrapyd部署_如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目
来自 Scrapy 官方账号的推荐需求分析初级用户: 只有一台开发主机能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控 ...
Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)
盗墓笔记案例: 目标网址:http://www.daomubiji.com/ scrapy项目: 1. 创建项目 2. 创建爬虫 3. 定义item 数据内容: 1. 书的名称 2. 章节名称 3. ...
Scrapy框架学习记录
随着Python爬虫学习的深入,开始接触Scrapy框架记录下两个参考教程: 官网教程:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutor ...
Scrapy Django项目
需求: 编写爬虫项目与Django项目详解和, 将爬取到的数据展示到前端页面上 # spider编写: import scrapy from dl.items import DlItem class ...
借助 docker, scrapyd, scrapydweb 部署scrapy项目
借助 docker, scrapyd, scrapydweb 部署scrapy项目 scrapy采集程序开发完毕,难道还命令行启动吗?既然有炫酷的scrapyd的部署服务和scrapyweb这样的可视 ...
【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上，有彩蛋
接着之前的几篇文章说. 我把爬虫已经写好了,而且在本地可以运行了. 这个不是最终的目的啊. 我们是要在服务器上运行爬虫. 利用周末,同时腾讯送的7天云服务器体验也快到期了就在这里再来一篇手把手的将爬 ...
Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 当我们入手爬虫工作的时候,一开始可能就是几个爬虫,我们可以手动调度部署,日积月累后,可能从十个到一百个 ...
scrapyd部署爬虫项目到LINUX服务器
1,首先把scrapy爬虫项目上传到服务器我的服务器架设在公司内网里.所以在这里使用WinSCP作为上传工具. 2,修改项目的配置文件scrapy.cfg 给爬虫项目指定分组,具体方法是在deplo ...