Scrapyd 使用详解

                      ---ONE Goal , ONE Passion !

前言:
必须清楚一点的是,scrapyd 不是scrapy.
scarpy是一个爬虫框架, 而scrapyd是一个网页版管理scrapy的工具, scrapy爬虫写好后,可以用命令行运行,但是如果能在网页上操作就比较方便. scrapyd就是为了解决这个问题,能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务,功能比较强大. 还有一个更加强大的国产工具 gerapy!


Scrapyd 使用详解:

一. 安装scrapyd

pip install

2.安装scrapyd-client

pip install scrapyd-client

3.运行scrapyd

首先切换命令行路径到Scrapy项目的根目录下,
要执行以下的命令,需要先在命令行里执行scrapyd,将scrapyd运行起来

$ scrapyd   $的意思是.在命令行下

4.发布工程到scrapyd

  • 4.1 : 修改爬虫的scapy.cfg文件
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html[settings]
default = CZBK.settings
[deploy]
url = http://localhost:6800/   将#注释掉
project = CZBK

[deploy:服务器名随意设置(trager)],一般情况用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。相当于服务器名.

  • 4.2 : 检查scrapy配置是否正确
scrapyd-deploy -l  # 注意是小写的 L,不是数字1

5. 发布爬虫

scrapyd-deploy <target> -p <project> --version <version>

target就是前面配置文件里deploy后面的的target名字。
project 可以随意定义,跟爬虫的工程名字无关。
version自定义版本号,不写的话默认为当前时间戳。

注意,爬虫目录下不要放无关的py文件,放无关的py文件会导致发布失败,但是当爬虫发布成功后,会在当前目录生成一个setup.py文件,可以删除掉。

$scrapyd-deploy -p cz    $的意思是.在命令行下.注意刚刚启动scrapyd的命令行不要关闭发布成功后信息:
Packing version 1523349647
Deploying to project "cz" in http://localhost:6800/addversion.json
Server response (200):{"project": "cz", "node_name": "ubuntu", "status": "ok", "spiders": 1, "version": "1523349647"}

6.启动爬虫

curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬虫名

在发布成功的信息中可以找到工程名(这个工程名不是项目,而是发布时-p后的参数)

$curl http://127.0.0.1:6800/schedule.json -d project=cz -d spider=cz成功信息:
{"node_name": "ubuntu", "status": "ok", "jobid": "23be21443cc411e89c37000c29e9c505"}

运行后,可以在http://127.0.0.1:6800/jobs 查看运行的爬虫的详细信息

7. 取消爬虫

curl http://127.0.0.1:6800/cancel.json -d project=cz -d job=jobid #jobid不要带""

注: gerapy 持续更新

Scrapyd 使用详解相关推荐

  1. Scrapyd使用详解

    目录 前言 使用详解 安装 启动 项目发布 相关API使用 查看服务进程状态 项目发布版本 调度爬虫 取消任务 获取上传的项目 获取项目的版本 获取项目的爬虫列表 获取任务列表(Scrapyd 0.1 ...

  2. 从命令行到IDE,版本管理工具Git详解(远程仓库创建+命令行讲解+IDEA集成使用)

    首先,Git已经并不只是GitHub,而是所有基于Git的平台,只要在你的电脑上面下载了Git,你就可以通过Git去管理"基于Git的平台"上的代码,常用的平台有GitHub.Gi ...

  3. JVM年轻代,老年代,永久代详解​​​​​​​

    秉承不重复造轮子的原则,查看印象笔记分享连接↓↓↓↓ 传送门:JVM年轻代,老年代,永久代详解 速读摘要 最近被问到了这个问题,解释的不是很清晰,有一些概念略微模糊,在此进行整理和记录,分享给大家.在 ...

  4. docker常用命令详解

    docker常用命令详解 本文只记录docker命令在大部分情境下的使用,如果想了解每一个选项的细节,请参考官方文档,这里只作为自己以后的备忘记录下来. 根据自己的理解,总的来说分为以下几种: Doc ...

  5. 通俗易懂word2vec详解词嵌入-深度学习

    https://blog.csdn.net/just_so_so_fnc/article/details/103304995 skip-gram 原理没看完 https://blog.csdn.net ...

  6. 深度学习优化函数详解(5)-- Nesterov accelerated gradient (NAG) 优化算法

    深度学习优化函数详解系列目录 深度学习优化函数详解(0)– 线性回归问题 深度学习优化函数详解(1)– Gradient Descent 梯度下降法 深度学习优化函数详解(2)– SGD 随机梯度下降 ...

  7. CUDA之nvidia-smi命令详解---gpu

    nvidia-smi是用来查看GPU使用情况的.我常用这个命令判断哪几块GPU空闲,但是最近的GPU使用状态让我很困惑,于是把nvidia-smi命令显示的GPU使用表中各个内容的具体含义解释一下. ...

  8. Bert代码详解(一)重点详细

    这是bert的pytorch版本(与tensorflow一样的,这个更简单些,这个看懂了,tf也能看懂),地址:https://github.com/huggingface/pytorch-pretr ...

  9. CRF(条件随机场)与Viterbi(维特比)算法原理详解

    摘自:https://mp.weixin.qq.com/s/GXbFxlExDtjtQe-OPwfokA https://www.cnblogs.com/zhibei/p/9391014.html C ...

最新文章

  1. 几张图看懂列式存储(转)
  2. 【old】mapX距离工具源码,delphi7+mapx5.0
  3. 基于吉日嘎拉的通用权限管理WebForm版扩展:字典选项管理和缓存管理
  4. js取对象属性需注意
  5. Function types cannot have argument labels 错误解决方案
  6. Windows下,MySQL root用户忘记密码解决方案
  7. DSF深搜入门全排列笔记nyoj366
  8. 华为P50或将全面搭载鸿蒙OS上市:明年一季度见
  9. 负载均衡原理与实践详解 第五篇 负载均衡时数据包流程详解
  10. php生成图片不显示,php绘图不显示图片怎么办
  11. 第五届全国大学生GIS应用技能大赛开发题答案(非官方)
  12. 分享一下linux系统的精彩描述
  13. mysql 二次方函数_MySQL SQRT函数:求二次方根
  14. 【SQLPlanet】如何将一维表转化为二维表
  15. Deep Learning 学习笔记
  16. QQ大厅游戏 大家来找茬辅助
  17. CTGU实验5_1-创建还书过程中的触发器
  18. 我们已经开发好了Magento的Ctopay(收汇宝)非3D网关
  19. 抓取chrome所有版本密码
  20. 2021湖南高考成绩分段查询,2021湖南高考成绩查询系统入口

热门文章

  1. Android - TextView限制文本长度,英文占1位,中文占2位
  2. python图像识别的学习
  3. python中导入模块是用哪个关键字_关于python导入模块import与常见的模块详解
  4. 【工具】FastStone Capture(FSCapture) 注册码
  5. 自然语言处理学习笔记(1)——词典分词
  6. 怎么将jpg压缩图片文件大小?如何缩小图片大小kb?
  7. #uni-app 开发项目实战# 下拉刷新,上拉加载数据
  8. 快手“领跑”奥运短视频元年 平台奥运内容总播放量达730亿
  9. 【Camunda 三】Camunda部署流程定义
  10. 帮我写一个微积分计算程序