Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站

原创文章、码字不易,转载请注明出处和链接,谢谢!

1.环境保障

自己利用scrapy编写的智联招聘网站“大数据职位”爬虫

https://github.com/XinyaoTian/zhilian_Spider

利用git的clone命令将github上的命令克隆至服务器的/root下。该项目的克隆位置为  /root/zhilian_Spider

【注意!】若想要在Ubuntu上运行该项目,请先安装Anconda2,scrapy以及pymongo库。

2.使用定时器

使用流程:

A.安装crontab

$apt install cron

B.开通并开启cronie后台服务

$sudo systemctl enable cron.service; sudo systemctl start cron.service

C.编写用于定时执行的shell脚本

$vi cron_zhilian.sh

D.编写cron_zhilian.sh

# 这段代码的意思是

export PATH=$PATH:/root/anaconda2/bin    # 导入 anaconda2 的 python 内核

cd /root/zhilian_Spider/    # 进入zhilian_Spider路径

nohup scrapy crawl OverviewSpider >> OverviewSpider.log 2>&1 &   # 运行爬虫
# 保存退出

E.编辑crontab定时任务

$crontab -e

F.在MyCrontab中写入如下内容

# 命令格式为:<分钟> <小时> <日> <月份> <星期> <命令>

# 这段命令的意思是,每天的3点10分,利用 /bin/sh 中的命令执行 /root/Crontabs/cron_zhilian.sh 这个shell文件

10 3 * * * (/bin/sh /root/Crontabs/cron_zhilian.sh)

# 保存退出

G.查看定时任务情况,如果设置成功即可查看到相应任务

$crontab -l

3.日志管理

上述内容全部编辑好了后,发现ubuntu的/var/log/下面没有crontab的日志,原因是因为ubuntu默认没有开启crontab的日志功能,执行如下操作:

$vi /etc/rsyslog.d/50-default.conf

将cron.*这一行前的注释打开:

然后重启

$sudo  service rsyslog  restart

最后就可以查看crontab的日志了

$tail –f  /var/log/cron.log

以上就是本文的全部内容,感谢您的阅读。希望对您有所帮助。

Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站相关推荐

  1. Linux的shell脚本爬虫实战之图片爬取

    一.爬虫原理 1.模拟计算机对服务器发起Request请求 2.接收服务器端的Response内容并解析.提取所需的信息 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是 ...

  2. 爬虫实战(一)—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据

    概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider 包括了项目的所有代码. 此篇文 ...

  3. Scrapy+crontab 定时爬取小说更新推送到手机邮件

    Scrapy+crontab 定时爬取小说更新推送到手机邮件 本人酷爱追火星引力的<逆天邪神>小说,但经常是俩三天才一更,每天打开浏览器查看是否更新贼痛苦.现在利用所学的知识来解决问题.文 ...

  4. Shell脚本实现每个工作日定时执行指定程序

    我们可能会遇到这样的情景:必须在每个工作日定时执行Linux服务器上的某个程序.那么有没有办法实现这一功能呢?答案是肯定的.我们可以运用Shell脚本简单实现这一功能. 原理很简单,Shell脚本内部 ...

  5. linux脚本定时执行,Shell脚本实现每个工作日定时执行指定程序

    我们可能会遇到这样的情景:必须在每个工作日定时执行 原理很简单,Shell脚本内部每隔1秒查询一次当前时间.日期以及星期数,当检测到当前星期数week非0或6(0代表星期天,6代表星期六)且时间cur ...

  6. scrapy简单入门 - 爬取伯乐在线所有文章

    推荐我的个人博客 http://blog.wuzhenyu.com.cn scrapy 是一个用 python 语言编写的,为了爬取网站数据,提取结构性数据而编写的应用框架. 环境 本文使用的环境: ...

  7. 用Scrapy爬虫框架爬取食品论坛数据并存入数据库

    这篇文章主要给大家介绍了食品网站的数据采集和存储过程,详解了如何分析网页结构.爬虫策略.网站类型.层级关系.爬虫方法和数据存储过程,最终实现将帖子的每条评论爬取到数据库中,并且做到可以更新数据,防止重 ...

  8. 利用linux curl爬取网站数据

    看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

  9. scrapy初始第一波——爬取伯乐在线所有文章

    1 前言    要说到爬虫界的明星,当属我们的python,而这得益于我们的爬虫明星框架--scrapy,这就让我们不得不学习它,这几天刚好用它做一些小demo,就将其总结一下,希望能对大家的学习爬虫 ...

最新文章

  1. 零基础入门--中文命名实体识别(BiLSTM+CRF模型,含代码)
  2. Android数据存储(三)——SQLite
  3. too many open files(打开的文件过多)解决方法
  4. 一个关于hashCode的追问!
  5. 很好的大数据名词解释,收藏
  6. 负载均衡实现的几种方式
  7. SATI统计分析文献--以关键词为例
  8. vivado SRIO 学习
  9. 初中学校计算机机房管理制度,学校机房管理制度
  10. 网站打开速度慢的解决方法
  11. PERT(计划评审技术,Program Evaluation an Review Technique)
  12. VS Code 安装和配置 ESLint
  13. 2021综述:计算机视觉中的注意力机制(续四):分支注意力
  14. 我这些年从来没有用过算法,除了出去面试的时候
  15. 如何用项目管理软件,帮助项目经理监控项目进度?
  16. SpringBoot写一个聊天工具
  17. linux平台开源oa系统
  18. sprite Kit Actions(三)
  19. linux安装scim
  20. 《程序员的自我修养》导读

热门文章

  1. cpu寻址空间(能力)理解
  2. java socket 高级编程_Java高级编程-网络编程详细介绍 (一)
  3. 主键ID是什么,做什么用的?(能够唯一表示数据表中的每个记录,防止数据冲突,冗余)
  4. 计算机网络点对点模式,点对点模式——进一步分析
  5. mint linux使用教程,Linux:Linux Mint系统的安装
  6. 财政政策与货币政策(下)
  7. 智能测量仪表在三相电路中的如何接入电路进行测量电压电流功率等数据
  8. 编译原理-5-LL(1)语法分析器
  9. 耗时统计利器——StopWatch秒表
  10. 想租个门面做小生意,有哪些合适的项目