scrapy爬虫实践之抓取拉钩网招聘信息（4）

拉勾的302搞的我不心力憔悴，几乎失去了动力继续再研究拉勾爬虫…实际上，这种无力感很大程度上来源于知识结构的匮乏（尤其是基础方面）和毫无进展带来的挫败感。

于是乎去读基础教程《learning scrapy》，准备从0开始跟着教材敲一遍代码。学习中，因测试需要去爬了一下51job，没想到，51job竟然没什么反爬机制，只要设置一个user-agent就可以愉快的爬爬爬，甚至都不需要设置延迟，也不会担心封ip…

在爬取的过程中遇到了一些小问题，解决他们的过程中，确实是帮助我理解了一些很基础的东西，了解了他们的作用。现在记录并分享一下。

1.返回400状态码：

什么是400状态码呢？：400 bad request 错误的请求

解决方法：修改爬虫中request’参数

2.scrapy 爬虫时报错：
<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>

这是因为没有加header

解决方法：增加浏览器头部

3.迭代爬取时，报错 Filtered offsite request

因为 Request中请求的 URL 和 allowed_domains 中定义的域名冲突，所以将Request中请求的URL过滤掉了，无法请求。

解决方法：正确修改allowed_domains为域名（不加www.或者http），或者在request中添加参数dont_filter = True

4.urlparse模块

python2中的urlpython模块在python3中已经改名为urllib.parse，所以import的时候要注意咯。

scrapy爬虫实践之抓取拉钩网招聘信息（4）相关推荐

scrapy爬虫实践之抓取拉钩网招聘信息（2）
今天遇到了一个百思不得其解的问题.我用xpath获取目标网页的divs,理论上来说,应该是把这个div下的所有div存进了列表里,但是语句却是这样写的 divs = response.xpath('/ ...
Python爬虫项目：抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版该文件运行后会产生一个代码,保存在这个Pyth ...
结束 txt进程_Python多进程抓取拉钩网十万数据
转载:Python多进程抓取拉钩网十万数据准备安装Mongodb数据库其实不是一定要使用MongoDB,大家完全可以使用MySQL或者Redis,全看大家喜好.这篇文章我们的例子是Mongodb ...
python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
python实现scrapy爬虫每天定时抓取数据
python实现scrapy爬虫每天定时抓取数据 1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程 ...
python 爬虫学习：抓取智联招聘网站职位信息(二)
在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...
使用scrapy爬虫框架来获取腾讯的招聘信息
Scrapy是一个用于抓取web站点和提取结构化数据的应用程序框架,可用于广泛的应用程序,如数据挖掘,信息处理或历史存档尽管scrapy最初是为了web抓取而设计的但它也可以使用api(如Amazo ...

scrapy爬虫实践之抓取拉钩网招聘信息（4）

scrapy爬虫实践之抓取拉钩网招聘信息（4）相关推荐

最新文章

热门文章