这是「进击的Coder」的第 370 篇技术分享

作者:Boris1260

来源:程序员技术宝典

阅读本文大概需要 12 分钟。

之前,我们写爬虫,用的最多的框架莫过于 scrapy 啦,今天我们用最近新出的爬虫框架 feapder 来开发爬虫,看下是怎样的体验。

目标网站:aHR0cHM6Ly93d3cubGFnb3UuY29tLw==
需求:采集职位列表与职位详情,详情需每7天更新一次
为了演示,以下只搜索与爬虫相关的职位

1. 调研

1.1 列表页面

首先我们需要看下页面是否为动态渲染的,接口是否有反爬。

看是否为动态渲染的可以右键,显示网页源代码,然后搜索网页上的内容源码里是否存在,比如搜索列表的第一条知衣科技,匹配了 0 条,则初步判断是动态渲染的

或者可以用feapder命令,下载网页源码,查看。

打开后的页面为加载中

调用 response.open() 命令会在工作目录下生产一个 temp.html 文件,内容为当前请求返回的源码,我们点击查看,是一段 js,有安全验证。因此可以推断出该网站有反爬,难度升级预警

feapder 还支持使用 curl 命令请求,方式如下:

按F12,或者右键检查,打开调试窗口,刷新页面,点击当前页的请求,复制为 curl,返回命令行窗口,输入 feapder shell -- 然后粘贴刚刚复制的内容


发现携带 header,cookie 也不行,可能是某些参数只能用一次吧。

调研结论:列表页有反爬,页面动态渲染

ps: 正常大神还会继续调研,列表接口是什么,如何破解反爬,但因为我是小白,就先不纠结了

1.2 详情页面

与列表页调研类似,结论是有反爬,但页面不是动态渲染的

2. 创建项目

打开命令行工具,输入:

> feapder create -p lagou-spider                                                                                   lagou-spider 项目生成成功

生成项目如下:

我用的 pycharm,先右键,将这个项目加入到工作区间。
(右键项目名,Mark Directory as -> Sources Root)

3. 写列表页爬虫

3.1 创建爬虫

> cd lagou-spider/spiders
> feapder create -s list_spider ListSpider 生成成功

生成代码如下:

import feapderclass ListSpider(feapder.AirSpider):def start_requests(self):yield feapder.Request("https://www.baidu.com")def parse(self, request, response):print(response)if __name__ == "__main__":ListSpider().start()

这是请求百度的例子,可直接运行

3.2 写爬虫

下发任务:

def start_requests(self):yield feapder.Request("https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=", render=True)

注意到,我们在请求里携带了 render 参数,表示是否用浏览器渲染,因为这个列表页是动态渲染的,又有反爬,我比较怂,所以采用了渲染模式,以避免掉头发

编写解析函数

观察页面结构,写出如下解析函数

def parse(self, request, response):job_list = response.xpath("//li[contains(@class, 'con_list_item')]")for job in job_list:job_name = job.xpath("./@data-positionname").extract_first()company = job.xpath("./@data-company").extract_first()salary = job.xpath("./@data-salary").extract_first()job_url = job.xpath(".//a[@class='position_link']/@href").extract_first()print(job_name, company, salary, job_url)

我们解析了职位名称、公司、薪资、以及职位详情地址,正常逻辑应该将详情地址作为任务下发,获取详情

def parse(self, request, response):job_list = response.xpath("//li[contains(@class, 'con_list_item')]")for job in job_list:job_name = job.xpath("./@data-positionname").extract_first()company = job.xpath("./@data-company").extract_first()salary = job.xpath("./@data-salary").extract_first()job_url = job.xpath(".//a[@class='position_link']/@href").extract_first()print(job_name, company, salary, job_url)yield feapder.Request(job_url, callback=self.parse_detail, cookies=response.cookies.get_dict())  # 携带列表页返回的cookie,回调函数指向详情解析函数def parse_detail(self, request, response):print(response.text)# TODO 解析详情

但需求是详情每 7 天更新一次,列表没说要更新,因此为了优化,将详情单独写个爬虫,本爬虫只负责列表的数据和生产详情的任务就好了

3.3 数据入库

创建表

职位列表数据表 lagou_job_list

CREATE TABLE `lagou_job_list` (`id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增id',`job_name` varchar(255) DEFAULT NULL COMMENT '职位名称',`company` varchar(255) DEFAULT NULL COMMENT '公司',`salary` varchar(255) DEFAULT NULL COMMENT '薪资',`job_url` varchar(255) DEFAULT NULL COMMENT '职位地址',PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

详情任务表 lagou_job_detail_task

CREATE TABLE `lagou_job_detail_task` (`id` int(11) unsigned NOT NULL AUTO_INCREMENT,`url` varchar(255) DEFAULT NULL,`state` int(11) DEFAULT '0' COMMENT '任务状态(0未做,1完成,2正在做,-1失败)',PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

数据入库方式

数据入库有很多方式,直接导入 pymysql 然后拼接 sql 语句入库,或者使用框架自带的 MysqlDB。不过 feapder 有一种更方便的入库方式,自动入库

自动入库 AirSpider 是不支持的,因为他比较轻量嘛,作者为了保持轻量的特性,暂时没支持自动入库。不过分布式爬虫 Spider 是支持的,我们直接将继承类改为 Spider 即可

class ListSpider(feapder.AirSpider):

改为

class ListSpider(feapder.Spider):

生成 item

item 是与表一一对应的,与数据入库机制有关,可用 feapder 命令生成。

首先配置下数据库连接信息,在 setting 中配置的

生成item:

> cd items
> feapder create -i lagou_job_list
> feapder create -i lagou_job_detail_task

数据入库

def parse(self, request, response):job_list = response.xpath("//li[contains(@class, 'con_list_item')]")for job in job_list:job_name = job.xpath("./@data-positionname").extract_first()company = job.xpath("./@data-company").extract_first()salary = job.xpath("./@data-salary").extract_first()job_url = job.xpath(".//a[@class='position_link']/@href").extract_first()# 列表数据list_item = lagou_job_list_item.LagouJobListItem()list_item.job_name = job_namelist_item.company = companylist_item.salary = salarylist_item.job_url = job_urlyield list_item  # 直接返回,框架实现批量入库# 详情任务detail_task_item = lagou_job_detail_task_item.LagouJobDetailTaskItem()detail_task_item.url = job_urlyield detail_task_item  # 直接返回,框架实现批量入库

以 yield item 的方式将数据返回给框架,框架自动批量入库

3.4 整体代码

import feapder
from items import *class ListSpider(feapder.Spider):def start_requests(self):yield feapder.Request("https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=",render=True,)def parse(self, request, response):job_list = response.xpath("//li[contains(@class, 'con_list_item')]")for job in job_list:job_name = job.xpath("./@data-positionname").extract_first()company = job.xpath("./@data-company").extract_first()salary = job.xpath("./@data-salary").extract_first()job_url = job.xpath(".//a[@class='position_link']/@href").extract_first()# 列表数据list_item = lagou_job_list_item.LagouJobListItem()list_item.job_name = job_namelist_item.company = companylist_item.salary = salarylist_item.job_url = job_urlyield list_item  # 直接返回,框架实现批量入库# 详情任务detail_task_item = lagou_job_detail_task_item.LagouJobDetailTaskItem()detail_task_item.url = job_urlyield detail_task_item  # 直接返回,框架实现批量入库if __name__ == "__main__":spider = ListSpider(redis_key="feapder:lagou_list")spider.start()

redis_key 为任务队列在 redis 中存放的位置。

直接运行,观察到数据已经自动入库了

4. 写详情爬虫

与列表页爬虫不同,详情数据需要每 7 天更新一次。

为了做时序数据展示,我们每 7 天采集一次数据,数据需携带批次信息,将数据按照 7 天维度划分

在没接触 feapder 框架前,我们需要考虑将任务从详情任务表中分批拿出发给爬虫,还需要维护任务的状态,以及上面提及的批次信息。并且为了保证数据的时效性,需要对采集进度进行监控,写个爬虫十分繁琐。

那么 feapder 如何做呢?为了节省篇幅,直接给出完整代码:

import feapder
from items import *class DetailSpider(feapder.BatchSpider):def start_requests(self, task):task_id, url = taskyield feapder.Request(url, task_id=task_id, render=True)def parse(self, request, response):job_name = response.xpath('//div[@class="job-name"]/@title').extract_first().strip()detail = response.xpath('string(//div[@class="job-detail"])').extract_first().strip()item = lagou_job_detail_item.LagouJobDetailItem()item.title = job_nameitem.detail = detailitem.batch_date = self.batch_date  # 获取批次信息,批次信息框架自己维护yield item  # 自动批量入库yield self.update_task_batch(request.task_id, 1)  # 更新任务状态if __name__ == "__main__":spider = DetailSpider(redis_key="feapder:lagou_detail",  # redis中存放任务等信息的根keytask_table="lagou_job_detail_task",  # mysql中的任务表task_keys=["id", "url"],  # 需要获取任务表里的字段名,可添加多个task_state="state",  # mysql中任务状态字段batch_record_table="lagou_detail_batch_record",  # mysql中的批次记录表batch_name="详情爬虫(周全)",  # 批次名字batch_interval=7,  # 批次周期 天为单位 若为小时 可写 1 / 24)# 下面两个启动函数 相当于 master、worker。需要分开运行# spider.start_monitor_task() # 下发及监控任务spider.start()  # 采集

我们分别运行 spider.start_monitor_task() 与 spider.start(),待爬虫结束后,观察数据库

任务表lagou_job_detail_task

任务均已完成了,框架有任务丢失重发机制,直到所有任务均已做完

数据表lagou_job_detail:

数据里携带了批次时间信息,我们可以根据这个时间来对数据进行划分。当前批次为 3 月 19 号,若 7 天一批次,则下一批次为 3 月 26 号。

在本批次期间重复启动爬虫,若无新任务,爬虫不会抓取
spider.start_monitor_task()

spider.start()

批次表lagou_detail_batch_record

批次表为启动参数中指定的,自动生成。批次表里详细记录了每个批次的抓取状态,如任务总量、已做量、失败量、是否已完成等信息

5. 整合

目前列表爬虫与详情爬虫都写完了,运行入口分布在两个文件里,管理起来比较乱,feapder 建议写到统一写到 main.py 


from feapder import ArgumentParserfrom spiders import *def crawl_list():"""列表爬虫"""spider = list_spider.ListSpider(redis_key="feapder:lagou_list")spider.start()def crawl_detail(args):"""详情爬虫@param args: 1 / 2 / init"""spider = detail_spider.DetailSpider(redis_key="feapder:lagou_detail",  # redis中存放任务等信息的根keytask_table="lagou_job_detail_task",  # mysql中的任务表task_keys=["id", "url"],  # 需要获取任务表里的字段名,可添加多个task_state="state",  # mysql中任务状态字段batch_record_table="lagou_detail_batch_record",  # mysql中的批次记录表batch_name="详情爬虫(周全)",  # 批次名字batch_interval=7,  # 批次周期 天为单位 若为小时 可写 1 / 24)if args == 1:spider.start_monitor_task()elif args == 2:spider.start()if __name__ == "__main__":parser = ArgumentParser(description="xxx爬虫")parser.add_argument("--crawl_list", action="store_true", help="列表爬虫", function=crawl_list)parser.add_argument("--crawl_detail", type=int, nargs=1, help="详情爬虫(1|2)", function=crawl_detail)parser.start()

查看启动命令:

> python3 main.py --help
usage: main.py [-h] [--crawl_list] [--crawl_detail CRAWL_DETAIL]xxx爬虫optional arguments:-h, --help            show this help message and exit--crawl_list          列表爬虫--crawl_detail CRAWL_DETAIL详情爬虫(1|2)

启动列表爬虫:

 python3 main.py --crawl_list

启动详情爬虫master

python3 main.py --crawl_detail 1

启动详情爬虫worker

python3 main.py --crawl_detail 2

总结

本文拿某招聘网站举例,介绍了使用 feapder 采集数据整个过程。其中涉及到 AirSpiderSpiderBatchSpider 三种爬虫的使用。

  • AirSpider 爬虫比较轻量,学习成本低。面对一些数据量较少,无需断点续爬,无需分布式采集的需求,可采用此爬虫。

  • Spider 是一款基于 redis 的分布式爬虫,适用于海量数据采集,支持断点续爬、爬虫报警、数据自动入库等功能

  • BatchSpider 是一款分布式批次爬虫,对于需要周期性采集的数据,优先考虑使用本爬虫。

feapder 除了支持浏览器渲染下载外,还支持 pipeline,用户可自定义,方便对接其他数据库

框架内置丰富的报警,爬虫有问题时及时通知到我们,以保证数据的时效性

  1. 实时计算爬虫抓取速度,估算剩余时间,在指定的抓取周期内预判是否会超时

  2. 爬虫卡死报警

  3. 爬虫任务失败数过多报警,可能是由于网站模板改动或封堵导致

  4. 下载情况监控

    关于feapder使用说明

详见官方文档:https://boris.org.cn/feapder/#/

本文项目地址:https://github.com/Boris-code/feapder_project/tree/master/lagou-spider

End

「进击的Coder」专属学习群已正式成立,搜索「CQCcqc4」添加崔庆才的个人微信或者扫描下方二维码拉您入群交流学习。

看完记得关注@进击的Coder

及时收看更多好文

↓↓↓

点个在看常来看看

使用 feapder 开发爬虫是一种怎样的体验相关推荐

  1. 编写一个猥琐的反爬虫系统是种怎样的体验

    我们所处的互联网, 是一个爬虫的世界.任何一个小公司,小团队,甚至一个应届毕业生,都有可能编写爬虫,偷偷的获取数据. 当你看到"爬虫"两个字的时候, 就应该有点血脉贲张的感觉了. ...

  2. 从头开发一个 RPC 是种怎样的体验?

    [CSDN 编者按]对于开发人员来说,调用远程服务就像是调用本地服务一样便捷.尤其是在微服务盛行的今天,了解RPC的原理过程是十分有必要的. 作者 | Alex Ellis       译者 | 弯月 ...

  3. 在阿里巴巴做中后台开发,是一种怎样的体验?

    作者 | 牧瞳 本文经授权转载自阿里巴巴中间件(ID:Aliware_2018) 「开发全流程在线化」近些年来热度不断攀升,比如 AWS 在 C9 的实践.开源届比较出名的 TheiaJS,到后起之秀 ...

  4. 在霍格沃兹测试开发学社学习是种怎样的体验?

    霍格沃兹我怎么了解到的 我是河北某二本院校软工专业的学生,大三开始学校来了很多宣讲和实训的公司,都是为我们以后的职业发展做参考.学校有软件测试课程,有一次老师无意提到了霍格沃兹测试开发学社举办的高校& ...

  5. 使用Python语言开发爬虫有什么优势?

    网络爬虫分为很多种,Python爬虫也是其中的一种,那么使用Python语言开发爬虫有什么优势呢?来看看下面的详细介绍. Python分享:使用Python语言开发爬虫有什么优势?截止到目前,网络爬虫 ...

  6. Python开发爬虫完整代码解析

    Python开发爬虫完整代码解析 移除python ​三天时间,总算开发完了.说道爬虫,我觉得有几个东西需要特别注意,一个是队列,告诉程序,有哪些url要爬,第二个就是爬页面,肯定有元素缺失的,这个究 ...

  7. iOS开发笔记-两种单例模式的写法

    iOS开发笔记-两种单例模式的写法 单例模式是开发中最常用的写法之一,iOS的单例模式有两种官方写法,如下: 不使用GCD #import "ServiceManager.h"st ...

  8. Java开发web的几种开发模式

    Java开发web的几种开发模式 Java Web开发方案有多种可供选择,这里列举一些经典的开发模式进行横向比较,为Java Web的开发模式选择提供参考.除此之外还有好多方案(如Tapestry和W ...

  9. 作为前端开发兼任产品专员是一种咋样的体验

    临近过年假期,暂时离开电脑屏幕,觉得有必要记录一下2016年来一个多月自己的所做所想,也作为2016年自己的第一篇随笔.新年伊始,我开始接手PD(Product Design)相关的工作,开始正儿八经 ...

最新文章

  1. c# 分类 机器学习_听说你要用C#做机器学习
  2. 西部数据 MyCloud 网络存储存在 RCE 漏洞
  3. uchome 数据库结构 数据库字典
  4. 从源码深处体验Spring核心技术--面试中IOC那些鲜为人知的细节
  5. 【树链剖分】软件管理(luogu 2146/金牌导航 树链剖分-2)
  6. android 6.0 dm-verity技术,Android 7.0安全性大幅提升,要求严格强制执行验证启动
  7. spring-cloud学习demo,git地址
  8. 21天Jenkins打卡Day7-打包git代码
  9. To use CUDA with multiprocessing, you must use the ‘spawn‘ start method
  10. 七月算法机器学习 9 推荐系统与应用
  11. 1.3 收敛数列的性质
  12. python调用excel宏函数,封装
  13. 人的一生该怎样度过?
  14. mysql latch_MySQL8.0 - InnoDB里的Latch定义-阿里云开发者社区
  15. Balancer均衡器时段设置
  16. C#学习笔记:子类于父类的构造函数的关系【By Myself】
  17. numpy迭代数组nditer、flat
  18. 关于kali中base64的加解密使用
  19. 【Qzone】向来缘浅 奈何情深 第三步 编译Android内核源代码
  20. Win8换徽标亮点功能全面整合大阅兵

热门文章

  1. 大数据环境-云平台(阿里云)
  2. 免费小巧的录屏软件Captura
  3. 树莓派4B启动失败之原因排查及解决方案
  4. 2D转换分页按钮的制作流程(12)
  5. 三维可视化技术在超超临界锅炉防磨防爆中的应用
  6. android串口通信——身份证识别器
  7. 股市的交易日(动态规划算法)
  8. 跨平台应用:Qt 对决 HTML5
  9. 什么是SYN Flood?
  10. 【论文阅读】Learning Deep Features for Discriminative Localization