1. scrapyd的介绍

scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API(即:post请求的webapi)来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们。

2. scrapyd的安装

  • scrapyd服务: pip install scrapyd
  • scrapyd客户端: pip install scrapyd-client

3. 启动scrapyd服务

  1. 在scrapy项目路径下 启动scrapyd的命令:sudo scrapyd 或 scrapyd

  2. 启动之后就可以打开本地运行的scrapyd,浏览器中访问本地6800端口可以查看scrapyd的监控界面

  • 点击job查看任务监控界面

4. scrapy项目部署

4.1 配置需要部署的项目

编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中,就配置该项目的该文件)

 [deploy:部署名(部署名可以自行定义)]url = http://localhost:6800/project = 项目名(创建爬虫项目时使用的名称)

4.2 部署项目到scrapyd

同样在scrapy项目路径下执行:

scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称

部署成功之后就可以看到部署的项目:

4.3 管理scrapy项目

  • 启动项目:
curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name

  • 关闭爬虫:
curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid

注意:curl是命令行工具,如果没有则需要额外安装

4.4 使用requests模块控制scrapy项目

import requests# 启动爬虫
url = 'http://localhost:6800/schedule.json'
data = {'project': 项目名,'spider': 爬虫名,
}
resp = requests.post(url, data=data)# 停止爬虫
url = 'http://localhost:6800/cancel.json'
data = {'project': 项目名,'job': 启动爬虫时返回的jobid,
}
resp = requests.post(url, data=data)

5. scrapyd的其他webapi

  • curl http://localhost:6800/listprojects.json (列出项目)
  • curl http://localhost:6800/listspiders.json?project=myspider (列出爬虫)
  • curl http://localhost:6800/listjobs.json?project=myspider (列出job)
  • curl http://localhost:6800/cancel.json -d project=myspider -d job=tencent (终止爬虫,该功能会有延时或不能终止爬虫的情况,此时可用kill -9杀进程的方式中止)
  • scrapyd还有其他webapi,百度搜索了解更多

Scrapyd部署Scrapy框架项目相关推荐

  1. Scrapyd部署scrapy项目

    scrapyd部署scrapy项目 1. scrapyd的介绍 2. scrapyd的安装 3. 启动scrapyd服务 4. scrapy项目部署 4.1 配置需要部署的项目 4.2 部署项目到sc ...

  2. scrapyd部署_如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

    来自 Scrapy 官方账号的推荐 需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控 ...

  3. Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)

    盗墓笔记案例: 目标网址:http://www.daomubiji.com/ scrapy项目: 1. 创建项目 2. 创建爬虫 3. 定义item 数据内容: 1. 书的名称 2. 章节名称 3. ...

  4. Scrapy框架学习记录

    随着Python爬虫学习的深入,开始接触Scrapy框架 记录下两个参考教程: 官网教程:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutor ...

  5. Scrapy Django项目

    需求: 编写爬虫项目与Django项目详解和, 将爬取到的数据展示到前端页面上 # spider编写: import scrapy from dl.items import DlItem class ...

  6. 借助 docker, scrapyd, scrapydweb 部署scrapy项目

    借助 docker, scrapyd, scrapydweb 部署scrapy项目 scrapy采集程序开发完毕,难道还命令行启动吗?既然有炫酷的scrapyd的部署服务和scrapyweb这样的可视 ...

  7. 【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上,有彩蛋

    接着之前的几篇文章说. 我把爬虫已经写好了,而且在本地可以运行了. 这个不是最终的目的啊. 我们是要在服务器上运行爬虫. 利用周末,同时腾讯送的7天云服务器体验也快到期了 就在这里再来一篇手把手的将爬 ...

  8. Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 当我们入手爬虫工作的时候,一开始可能就是几个爬虫,我们可以手动调度部署,日积月累后,可能从十个到一百个 ...

  9. scrapyd部署爬虫项目到LINUX服务器

    1,首先把scrapy爬虫项目上传到服务器 我的服务器架设在公司内网里.所以在这里使用WinSCP作为上传工具. 2,修改项目的配置文件scrapy.cfg 给爬虫项目指定分组,具体方法是在deplo ...

最新文章

  1. 同一天,数学和计算机界“诺奖”分别揭晓
  2. 科技部发布新一批国家新一代人工智能开放创新平台
  3. python利用opencv自带的颜色查找表(LUT)进行色彩风格变换
  4. 硬盘参数你都懂吗?(上)-从案例引发的讨论
  5. eclipse中显示jquery或extjs自动提示
  6. 3位水仙花数计算pythonoj_Python解答蓝桥杯省赛真题之从入门到真题
  7. 【Java】GUI界面切换的解决方案
  8. roundcube邮箱手机端_求一款能够云备份的安卓手机便签记事本?
  9. fasta文件中DNA to RNA
  10. centos6重启网络命令_Docker常用命令详解
  11. Python 分析猴子吃桃子问题!
  12. SVN汉化失败的原因及解决方案(通过SVN官网下载SVN和相应的汉化包)
  13. 蓝牙技术|传统手表品牌加入智能手表竞争,智能手表市场持续火热
  14. 为何要做冒烟测试 如何做冒烟测试
  15. Acer S3 拆机换固态硬盘!【我的Acer S3小三,时尚时尚最时尚!】
  16. uniapp样式选择器最全详解
  17. 基于matlab的神经网络设计,神经网络模型matlab例子
  18. 有用的文章集锦(干货和有效知识)
  19. 三十八、Fluent融化凝固模型参数设置依据
  20. c语言程序的执行过程

热门文章

  1. 华为持续引领,开辟5G Massive MIMO绿色新赛道
  2. 实战|手把手教你用Python爬取存储数据,还能自动在Excel中可视化
  3. 一口气看完45个寄存器,CPU核心技术大揭秘
  4. ​我国科学家成功研制全球神经元规模最大的类脑计算机
  5. 好莱坞科幻新片《b》,钦定 AI 机器人出演女主角!
  6. 疫情可视化,基于知识图谱的AI“战疫”平台如何做?
  7. 不要痴迷蓝牙耳机了,出门选这个准没错,99W+人的选择
  8. 专访NIPS主席:如何保证论⽂评审的公平性?| 人物志
  9. 投稿近2000,NAACL 2019接收率仅为22.6%|附录取论文名单
  10. 售价1万7的华为Mate X很贵吗?