spiderkeeper 管理scrapy爬虫（定时执行）

文章目录

一、关于 spiderkeeper
- 安装
二、使用
- 1、运行 spiderkeeper
- 2、项目生成.egg文件
- 3、启动 scrapyd
三、管理项目
- 1、访问管理界面
- 2、创建项目
- 3、上传刚生成的 egg 文件
- 4、查看爬虫
四、管理任务
- 1、添加定时任务
- 2、查看任务状态
五、服务器部署
- 1、单台服务器
- 2、多台服务器
六、更改用户名、密码、端口号
- 1、config.py 更改用户名&密码
- 2、run.py 更改端口号
参考

一、关于 spiderkeeper

Github: https://github.com/DormyMo/SpiderKeeper

官方描述：A scalable admin ui for spider service

Manage your spiders from a dashboard. Schedule them to run automatically
With a single click deploy the scrapy project
Show spider running stats
Provide api

api： http://localhost:5000/api.html

安装

(base) $ sudo pip install spiderkeeper
(base) $ sudo pip install scrapy_reids # 缺少它可能会报莫名错误

二、使用

1、运行 spiderkeeper

进入虚拟环境后，输入 spiderkeeper 即可运行

(base) $ spiderkeeper
/Users/xx/opt/anaconda3/lib/python3.7/site-packages/flask_restful_swagger/swagger.py:14: ExtDeprecationWarning: Importing flask.ext.restful is deprecated, use flask_restful instead.from flask.ext.restful import Resource, fields
--------------------------------------------------------------------------------
INFO in run [/Users/xx/opt/anaconda3/lib/python3.7/site-packages/SpiderKeeper/run.py:22]:
SpiderKeeper startd on 0.0.0.0:5000 username:admin/password:admin with scrapyd servers:http://localhost:6800
--------------------------------------------------------------------------------
2021-06-24 21:22:59,765 - SpiderKeeper.app - INFO - SpiderKeeper startd on 0.0.0.0:5000 username:admin/password:admin with scrapyd servers:http://localhost:6800

注意这里的 username:admin/password:admin，后续访问管理界面时，需要输入这个账号（admin）和密码(admin)。

2、项目生成.egg文件

使用scrapyd打包你的项目生成.egg文件，以便后面传到spiderkeeper上面

$ scrapyd-deploy --build-egg news.egg

3、启动 scrapyd

终端进入项目目录，输入scrapyd 启动

$ scrapyd

三、管理项目

1、访问管理界面

访问网站：http://127.0.0.1:5000/api.html

2、创建项目

点击 Deploy，这里可以上传项目的 egg 文件。（刚才生成的，你也可以根究提示再次生成）

3、上传刚生成的 egg 文件

项目添加成功，可以再次点击 manage 来查看；

你也可以在列表中，点击下方的 delete 删除。

4、查看爬虫

点击 Dashboard (仪表盘) ，这里会显示你工程中的所有爬虫；

四、管理任务

1、添加定时任务

左侧目录点击 Periodic Jobs；进入此页后，点击右上角 Add Job 按钮，将弹出定时执行的窗口。

添加完成后，也可以在列表点击 run来直接运行；

2、查看任务状态

点击 Dashboard 仪表盘，可以看到下个/正在运行/已经完成的任务；

点击 Log 可以看到执行日志；（spiderkeeper封装了 scrapyd 的 log 接口）

如果想把监控部署在网络上，项目目录下scrapy.cfg中的url需要配置成0.0.0.0；设置完需要重启 scrapyd。

五、服务器部署

1、单台服务器

启动单台服务器,默认启动本地的 http://localhost:6800 scrapyd的服务
spiderkeeper的默认端口为5000.

$ sudo spiderkeeper

2、多台服务器

在分布式中我们的服务器中肯定不止一台,使用spiderkeeper可以很好的解决这个问题

$ sudo spiderkeeper --server=http://localhost:6800 --server=http://111.111.111.111:6800 #启动一个spiderkeeper可以同时部署两台服务器的spider

六、更改用户名、密码、端口号

1、config.py 更改用户名&密码

# Statement for enabling the development environment
import osDEBUG = True# Define the application directoryBASE_DIR = os.path.abspath(os.path.dirname(__file__))SQLALCHEMY_DATABASE_URI = 'sqlite:///' + os.path.join(os.path.abspath('.'), 'SpiderKeeper.db')
SQLALCHEMY_TRACK_MODIFICATIONS = False
DATABASE_CONNECT_OPTIONS = {}# Application threads. A common general assumption is
# using 2 per available processor cores - to handle
# incoming requests using one and performing background
# operations using the other.
THREADS_PER_PAGE = 2# Enable protection agains *Cross-site Request Forgery (CSRF)*
CSRF_ENABLED = True# Use a secure, unique and absolutely secret key for
# signing the data.
CSRF_SESSION_KEY = "secret"# Secret key for signing cookies
SECRET_KEY = "secret"# log
LOG_LEVEL = 'INFO'# spider services
SERVER_TYPE = 'scrapyd'
SERVERS = ['http://localhost:6800']# basic auth 这里更改用户名&密码
NO_AUTH = False
BASIC_AUTH_USERNAME = 'admin'
BASIC_AUTH_PASSWORD = 'admin'
BASIC_AUTH_FORCE = True

2、run.py 更改端口号

def parse_opts(config):parser = OptionParser(usage="%prog [options]",description="Admin ui for spider service")parser.add_option("--host",help="host, default:0.0.0.0", dest='host',default='0.0.0.0')#bind ip 绑定ip 默认全部人可以访问parser.add_option("--port",help="port, default:5000", dest='port',type="int",default=5000)#默认端口号5000 可以根据你的需求设计parser.add_option("--username",help="basic auth username ,default: %s" % config.get('BASIC_AUTH_USERNAME'),dest='username',default=config.get('BASIC_AUTH_USERNAME'))parser.add_option("--password",help="basic auth password ,default: %s" % config.get('BASIC_AUTH_PASSWORD'),dest='password',default=config.get('BASIC_AUTH_PASSWORD'))parser.add_option("--type",help="access spider server type, default: %s" % config.get('SERVER_TYPE'),dest='server_type',default=config.get('SERVER_TYPE'))parser.add_option("--server",help="servers, default: %s" % config.get('SERVERS'),dest='servers',action='append',default=[])parser.add_option("--database-url",help='SpiderKeeper metadata database default: %s' % config.get('SQLALCHEMY_DATABASE_URI'),dest='database_url',default=config.get('SQLALCHEMY_DATABASE_URI'))parser.add_option("--no-auth",help="disable basic auth",dest='no_auth',action='store_true')parser.add_option("-v", "--verbose",help="log level",dest='verbose',action='store_true')return parser.parse_args()

参考

俊采星驰_87e0
https://www.jianshu.com/p/590edb0c340a