Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站

2024-04-13 07:31:48

Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站

原创文章、码字不易，转载请注明出处和链接，谢谢！

1.环境保障

自己利用scrapy编写的智联招聘网站“大数据职位”爬虫

https://github.com/XinyaoTian/zhilian_Spider

利用git的clone命令将github上的命令克隆至服务器的/root下。该项目的克隆位置为 /root/zhilian_Spider

【注意！】若想要在Ubuntu上运行该项目，请先安装Anconda2,scrapy以及pymongo库。

2.使用定时器

使用流程:

A.安装crontab

$apt install cron

B.开通并开启cronie后台服务

$sudo systemctl enable cron.service; sudo systemctl start cron.service

C.编写用于定时执行的shell脚本

$vi cron_zhilian.sh

D.编写cron_zhilian.sh

# 这段代码的意思是

export PATH=$PATH:/root/anaconda2/bin # 导入 anaconda2 的 python 内核

cd /root/zhilian_Spider/ # 进入zhilian_Spider路径

nohup scrapy crawl OverviewSpider >> OverviewSpider.log 2>&1 & # 运行爬虫
# 保存退出

E.编辑crontab定时任务

$crontab -e

F.在MyCrontab中写入如下内容

# 命令格式为：<分钟> <小时> <日> <月份> <星期> <命令>

# 这段命令的意思是，每天的3点10分，利用 /bin/sh 中的命令执行 /root/Crontabs/cron_zhilian.sh 这个shell文件

10 3 * * * (/bin/sh /root/Crontabs/cron_zhilian.sh)

# 保存退出

G.查看定时任务情况，如果设置成功即可查看到相应任务

$crontab -l

3.日志管理

上述内容全部编辑好了后，发现ubuntu的/var/log/下面没有crontab的日志，原因是因为ubuntu默认没有开启crontab的日志功能，执行如下操作：

$vi /etc/rsyslog.d/50-default.conf

将cron.*这一行前的注释打开：

然后重启

$sudo service rsyslog restart

最后就可以查看crontab的日志了

$tail –f /var/log/cron.log

以上就是本文的全部内容，感谢您的阅读。希望对您有所帮助。

Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站相关推荐

Linux的shell脚本爬虫实战之图片爬取
一.爬虫原理 1.模拟计算机对服务器发起Request请求 2.接收服务器端的Response内容并解析.提取所需的信息如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是 ...
爬虫实战（一）—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据
概述可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider 包括了项目的所有代码. 此篇文 ...
Scrapy+crontab 定时爬取小说更新推送到手机邮件
Scrapy+crontab 定时爬取小说更新推送到手机邮件本人酷爱追火星引力的<逆天邪神>小说,但经常是俩三天才一更,每天打开浏览器查看是否更新贼痛苦.现在利用所学的知识来解决问题.文 ...
Shell脚本实现每个工作日定时执行指定程序
我们可能会遇到这样的情景:必须在每个工作日定时执行Linux服务器上的某个程序.那么有没有办法实现这一功能呢?答案是肯定的.我们可以运用Shell脚本简单实现这一功能. 原理很简单,Shell脚本内部 ...
linux脚本定时执行,Shell脚本实现每个工作日定时执行指定程序
我们可能会遇到这样的情景:必须在每个工作日定时执行原理很简单,Shell脚本内部每隔1秒查询一次当前时间.日期以及星期数,当检测到当前星期数week非0或6(0代表星期天,6代表星期六)且时间cur ...
scrapy简单入门 - 爬取伯乐在线所有文章
推荐我的个人博客 http://blog.wuzhenyu.com.cn scrapy 是一个用 python 语言编写的,为了爬取网站数据,提取结构性数据而编写的应用框架. 环境本文使用的环境: ...
用Scrapy爬虫框架爬取食品论坛数据并存入数据库
这篇文章主要给大家介绍了食品网站的数据采集和存储过程,详解了如何分析网页结构.爬虫策略.网站类型.层级关系.爬虫方法和数据存储过程,最终实现将帖子的每条评论爬取到数据库中,并且做到可以更新数据,防止重 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
scrapy初始第一波——爬取伯乐在线所有文章
1 前言要说到爬虫界的明星,当属我们的python,而这得益于我们的爬虫明星框架--scrapy,这就让我们不得不学习它,这几天刚好用它做一些小demo,就将其总结一下,希望能对大家的学习爬虫 ...

最新文章

热门文章