Scrapyd 使用详解
Scrapyd 使用详解
---ONE Goal , ONE Passion !
前言:
必须清楚一点的是,scrapyd 不是scrapy.
scarpy是一个爬虫框架, 而scrapyd是一个网页版管理scrapy的工具, scrapy爬虫写好后,可以用命令行运行,但是如果能在网页上操作就比较方便. scrapyd就是为了解决这个问题,能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务,功能比较强大. 还有一个更加强大的国产工具 gerapy!
Scrapyd 使用详解:
一. 安装scrapyd
pip install
2.安装scrapyd-client
pip install scrapyd-client
3.运行scrapyd
首先切换命令行路径到Scrapy项目的根目录下,
要执行以下的命令,需要先在命令行里执行scrapyd,将scrapyd运行起来
$ scrapyd $的意思是.在命令行下
4.发布工程到scrapyd
- 4.1 : 修改爬虫的scapy.cfg文件
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html[settings]
default = CZBK.settings
[deploy]
url = http://localhost:6800/ 将#注释掉
project = CZBK
[deploy:服务器名随意设置(trager)],一般情况用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。相当于服务器名.
- 4.2 : 检查scrapy配置是否正确
scrapyd-deploy -l # 注意是小写的 L,不是数字1
5. 发布爬虫
scrapyd-deploy <target> -p <project> --version <version>
target就是前面配置文件里deploy后面的的target名字。
project 可以随意定义,跟爬虫的工程名字无关。
version自定义版本号,不写的话默认为当前时间戳。
注意,爬虫目录下不要放无关的py文件,放无关的py文件会导致发布失败,但是当爬虫发布成功后,会在当前目录生成一个setup.py文件,可以删除掉。
$scrapyd-deploy -p cz $的意思是.在命令行下.注意刚刚启动scrapyd的命令行不要关闭发布成功后信息:
Packing version 1523349647
Deploying to project "cz" in http://localhost:6800/addversion.json
Server response (200):{"project": "cz", "node_name": "ubuntu", "status": "ok", "spiders": 1, "version": "1523349647"}
6.启动爬虫
curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬虫名
在发布成功的信息中可以找到工程名(这个工程名不是项目,而是发布时-p后的参数)
$curl http://127.0.0.1:6800/schedule.json -d project=cz -d spider=cz成功信息:
{"node_name": "ubuntu", "status": "ok", "jobid": "23be21443cc411e89c37000c29e9c505"}
运行后,可以在http://127.0.0.1:6800/jobs 查看运行的爬虫的详细信息
7. 取消爬虫
curl http://127.0.0.1:6800/cancel.json -d project=cz -d job=jobid #jobid不要带""
注: gerapy 持续更新
Scrapyd 使用详解相关推荐
- Scrapyd使用详解
目录 前言 使用详解 安装 启动 项目发布 相关API使用 查看服务进程状态 项目发布版本 调度爬虫 取消任务 获取上传的项目 获取项目的版本 获取项目的爬虫列表 获取任务列表(Scrapyd 0.1 ...
- 从命令行到IDE,版本管理工具Git详解(远程仓库创建+命令行讲解+IDEA集成使用)
首先,Git已经并不只是GitHub,而是所有基于Git的平台,只要在你的电脑上面下载了Git,你就可以通过Git去管理"基于Git的平台"上的代码,常用的平台有GitHub.Gi ...
- JVM年轻代,老年代,永久代详解
秉承不重复造轮子的原则,查看印象笔记分享连接↓↓↓↓ 传送门:JVM年轻代,老年代,永久代详解 速读摘要 最近被问到了这个问题,解释的不是很清晰,有一些概念略微模糊,在此进行整理和记录,分享给大家.在 ...
- docker常用命令详解
docker常用命令详解 本文只记录docker命令在大部分情境下的使用,如果想了解每一个选项的细节,请参考官方文档,这里只作为自己以后的备忘记录下来. 根据自己的理解,总的来说分为以下几种: Doc ...
- 通俗易懂word2vec详解词嵌入-深度学习
https://blog.csdn.net/just_so_so_fnc/article/details/103304995 skip-gram 原理没看完 https://blog.csdn.net ...
- 深度学习优化函数详解(5)-- Nesterov accelerated gradient (NAG) 优化算法
深度学习优化函数详解系列目录 深度学习优化函数详解(0)– 线性回归问题 深度学习优化函数详解(1)– Gradient Descent 梯度下降法 深度学习优化函数详解(2)– SGD 随机梯度下降 ...
- CUDA之nvidia-smi命令详解---gpu
nvidia-smi是用来查看GPU使用情况的.我常用这个命令判断哪几块GPU空闲,但是最近的GPU使用状态让我很困惑,于是把nvidia-smi命令显示的GPU使用表中各个内容的具体含义解释一下. ...
- Bert代码详解(一)重点详细
这是bert的pytorch版本(与tensorflow一样的,这个更简单些,这个看懂了,tf也能看懂),地址:https://github.com/huggingface/pytorch-pretr ...
- CRF(条件随机场)与Viterbi(维特比)算法原理详解
摘自:https://mp.weixin.qq.com/s/GXbFxlExDtjtQe-OPwfokA https://www.cnblogs.com/zhibei/p/9391014.html C ...
最新文章
- 几张图看懂列式存储(转)
- 【old】mapX距离工具源码,delphi7+mapx5.0
- 基于吉日嘎拉的通用权限管理WebForm版扩展:字典选项管理和缓存管理
- js取对象属性需注意
- Function types cannot have argument labels 错误解决方案
- Windows下,MySQL root用户忘记密码解决方案
- DSF深搜入门全排列笔记nyoj366
- 华为P50或将全面搭载鸿蒙OS上市:明年一季度见
- 负载均衡原理与实践详解 第五篇 负载均衡时数据包流程详解
- php生成图片不显示,php绘图不显示图片怎么办
- 第五届全国大学生GIS应用技能大赛开发题答案(非官方)
- 分享一下linux系统的精彩描述
- mysql 二次方函数_MySQL SQRT函数:求二次方根
- 【SQLPlanet】如何将一维表转化为二维表
- Deep Learning 学习笔记
- QQ大厅游戏 大家来找茬辅助
- CTGU实验5_1-创建还书过程中的触发器
- 我们已经开发好了Magento的Ctopay(收汇宝)非3D网关
- 抓取chrome所有版本密码
- 2021湖南高考成绩分段查询,2021湖南高考成绩查询系统入口
热门文章
- Android - TextView限制文本长度,英文占1位,中文占2位
- python图像识别的学习
- python中导入模块是用哪个关键字_关于python导入模块import与常见的模块详解
- 【工具】FastStone Capture(FSCapture) 注册码
- 自然语言处理学习笔记(1)——词典分词
- 怎么将jpg压缩图片文件大小?如何缩小图片大小kb?
- #uni-app 开发项目实战# 下拉刷新,上拉加载数据
- 快手“领跑”奥运短视频元年 平台奥运内容总播放量达730亿
- 【Camunda 三】Camunda部署流程定义
- 帮我写一个微积分计算程序