Scrapy+crontab 定时爬取小说更新推送到手机邮件

本人酷爱追火星引力的《逆天邪神》小说，但经常是俩三天才一更，每天打开浏览器查看是否更新贼痛苦。现在利用所学的知识来解决问题。文章分三部分：一、爬取更新二、发送邮件三、定时任务。爬虫内容简单，适合scrapy新手，重点在于发送邮件和定时任务。

一、爬取更新

小说地址：http://m.zongheng.com/h5/book?bookid=408586
页面图片：
1.创建工程project
选择一个目录：/home/yunge/code/spiders/
执行命令：

scrapy startproject xiaoshuo

2.创建spider
进入工程内，执行命令：

cd /xiaoshuo/xiaoshuo

创建spider，执行命令：

scrapy genspider nitianspider zongheng.com

3.items.py 填空

import scrapy

class XiaoshuoItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()chapter=scrapy.Field()updatetime=scrapy.Field()

4.nitiansipder.py

# -*- coding: utf-8 -*-
import scrapy
from xiaoshuo.items import XiaoshuoItem
from scrapy.mail import MailSenderclass NitianspiderSpider(scrapy.Spider):name = 'nitianspider'allowed_domains = ['zongheng.com']start_urls = ['http://m.zongheng.com/h5/book?bookid=408586']def parse(self, response):item=XiaoshuoItem()item['chapter']=response.xpath('//span[@class="last_tit"]/text()').extract()[0]item['updatetime']=response.xpath('//div[@class="time"]/text()').extract()[0]return item

二、发送邮件

5.pipelines.py

from scrapy.mail import MailSender
import scrapyclass XiaoshuoPipeline(object):def process_item(self, item, spider):with open ('nitianxieshen.txt','r') as fp:line=fp.readline().split('\t')if item['chapter']!=line[0]:Subject=u'小说《逆天邪神》更新啦！！！'Body=u'更新内容:\n%s\n点击地址:\nhttp://m.zongheng.com/h5/book?bookid=408586'%item['chapter'mailer=MailSender(smtphost="smtp.163.com",mailfrom="*****@163.com",smtpuser="******@163.com",smtppass="******",smtpport=25)mailer.send(to=['*******@qq.com'],subject=Subject.encode('utf8'),body=Body.encode('utf8'))with open('nitianxieshen.txt','w') as fp:fp.write(item['chapter'].encode('utf8')+'\t')fp.write(item['updatetime'].encode('utf8')+'\t\n')return item

6.settings.py
在最后一行添加：

ITEM_PIPELINES={'xiaoshuo.pipelines.XiaoshuoPipeline':2}

7.执行验证
首先创建文件 nitianxieshen.txt ：

vim nitianxieshen.txt

随便写入内容，与爬取的内容不同，方便测试爬虫是否发送邮件成功。
执行命令：

scrapy crawl nitianspider

三、定时任务

8.在目录：/home/yunge/code/spider/xiaoshuo/xiaoshuo/ 下，
创建脚本crontab.sh，内容：

cd /home/yunge/code/spiders/xiaoshuo/xiaoshuo/
scrapy crawl nitianspider

9.脚本添加文件执行权限
执行命令：

chmod 774 crontab.sh

10.crontab 添加定时任务
执行命令：

crontab -e

写入：

30 */6 * * * /home/yunge/code/spiders/xiaoshuo/xiaoshuo/crontab.sh

从6：30开始，每隔6个小时执行一次crontab.sh。

11.取消脚本执行后发送电脑邮件
此邮件非爬虫里的邮件，是cron定时任务发送电脑用户（即yunge）的邮件，执行后会在命令端不断提醒。
重新修改：

crontab -e

内容：

30 */6 * * * /home/yunge/code/spiders/xiaoshuo/xiaoshuo/crontab.sh &> /dev/null

到此已经结束了，以后可以美滋滋地看小说了。。。

Scrapy+crontab 定时爬取小说更新推送到手机邮件相关推荐

Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站
Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站原创文章.码字不易,转载请注明出处和链接,谢谢! 1.环境保障自己利用scrapy编写的智联招聘网站"大数据 ...
土拨鼠网站日记管理(分析推送二合一)】宝塔插件之自动爬取全站URL推送说明书
自动爬取全站URL推送说明书: 此功能将会针对爬取的站点进行全站URL爬取并且进行推送,爬取的每一条URL都会只推送一次,不会重复推送. 1.设置爬取的URL尽量是本服务器的站点,如果要推送别的站点可 ...
用python爬取公众号推送图片并保存为PPT
文章目录一.前言二.开始 (一)获取推送URL链接 (二)爬取网页并提取图片保存 1.定义用于爬取推送图片的PictureSpider类 2.定义get_url_text()方法 3.定义sear ...
记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库，每天定时爬取自动更新
爬取每天更新的新闻,使用scrapy框架,Python2.7,存入MySQL数据库,将每次的爬虫日志和爬取过程中的bug信息存为log文件下.定义bat批处理文件,添加到计划任务程序中,自动爬取. 额 ...
用python自动爬取海贼王漫画推送kindle
作者丨白人来源丨GitPython(GitPythoner) 链接: https://www.zhihu.com/question/34098079/answer/790127807 来源:知乎(作 ...
定时爬取学校官网讲座公告并邮件发给自己
文章目录前言流程各部分说明获取网页-Request库从HTML中提取数据-BeautifulSoup库 BeautifulSoup-转换成`BeautifulSoup` 的对象 find() ...
爬虫学习,尝试爬取小说网站
初步学习了scrapy 尝试着爬取小说网站全部小说(发现没问题就停了) 以下为scrapy中基础爬虫的写法 # -*- coding: utf-8 -*- import scrapy from scr ...
Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
大宗师是著名网络小说作家蛇从革的系列作品"宜昌鬼事"之一,在天涯论坛具有超级高的访问量.这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局,期间每天有7万多读 ...
Scrapy爬虫框架，爬取小说网的所有小说
Scrapy入门教程请看目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理我们的目的是把某个小说网的所有小说给拿下,这就涉 ...

Scrapy+crontab 定时爬取小说更新推送到手机邮件

Scrapy+crontab 定时爬取小说更新推送到手机邮件

一、爬取更新

二、发送邮件

三、定时任务

Scrapy+crontab 定时爬取小说更新推送到手机邮件相关推荐

最新文章

热门文章