拉勾的302搞的我不心力憔悴,几乎失去了动力继续再研究拉勾爬虫…实际上,这种无力感很大程度上来源于知识结构的匮乏(尤其是基础方面)和毫无进展带来的挫败感。

于是乎去读基础教程《learning scrapy》,准备从0开始跟着教材敲一遍代码。学习中,因测试需要去爬了一下51job,没想到,51job竟然没什么反爬机制,只要设置一个user-agent就可以愉快的爬爬爬,甚至都不需要设置延迟,也不会担心封ip…

在爬取的过程中遇到了一些小问题,解决他们的过程中,确实是帮助我理解了一些很基础的东西,了解了他们的作用。现在记录并分享一下。

1.返回400状态码:

什么是400状态码呢?:400 bad request 错误的请求

解决方法:修改爬虫中request’参数

2.scrapy 爬虫时报错:
<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>

这是因为没有加header

解决方法:增加浏览器头部

3.迭代爬取时,报错 Filtered offsite request

因为 Request中请求的 URL 和 allowed_domains 中定义的域名冲突,所以将Request中请求的URL过滤掉了,无法请求。

解决方法:正确修改allowed_domains为域名(不加www.或者http),或者在request中添加参数dont_filter = True

4.urlparse模块

python2中的urlpython模块在python3中已经改名为urllib.parse,所以import的时候要注意咯。

scrapy爬虫实践之抓取拉钩网招聘信息(4)相关推荐

  1. scrapy爬虫实践之抓取拉钩网招聘信息(2)

    今天遇到了一个百思不得其解的问题.我用xpath获取目标网页的divs,理论上来说,应该是把这个div下的所有div存进了列表里,但是语句却是这样写的 divs = response.xpath('/ ...

  2. Python爬虫项目:抓取智联招聘信息

    来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...

  3. 结束 txt进程_Python多进程抓取拉钩网十万数据

    转载:Python多进程抓取拉钩网十万数据 准备 安装Mongodb数据库 其实不是一定要使用MongoDB,大家完全可以使用MySQL或者Redis,全看大家喜好.这篇文章我们的例子是Mongodb ...

  4. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  5. python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  6. python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  7. python实现scrapy爬虫每天定时抓取数据

    python实现scrapy爬虫每天定时抓取数据 1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程 ...

  8. python 爬虫学习:抓取智联招聘网站职位信息(二)

    在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...

  9. 使用scrapy爬虫框架来获取腾讯的招聘信息

    Scrapy是一个用于抓取web站点和提取结构化数据的应用程序框架,可用于广泛的应用程序,如数据挖掘,信息处理或历史存档 尽管scrapy最初是为了web抓取而设计的但它也可以使用api(如Amazo ...

最新文章

  1. Oracle绝对值函数
  2. 使用工具远程连接服务器 顺便抛个砖
  3. Lubuntu 18.10仍有可能支持32位PC
  4. 16. jQuery - 获取并设置 CSS 类
  5. Openvswitch手册(7): Interfaces
  6. weblogic控制台超时时间_WebLogic如何设置session超时时间
  7. VMware虚拟机下载、安装与使用
  8. Oracle sql语句 待新增(新增字段)
  9. linux学习资料(转帖收藏)
  10. 迅为4418核心板应用于智能访客机方案
  11. 卷积系列:Deconvolution(反卷积)/Transpose Convolution(转置卷积)/Fractional convolution
  12. 提高计算机启动速度的是什么,三种方法让你实现电脑秒开!提升电脑开机速度就是这么简单!...
  13. ​电脑上的回收站怎么隐藏 ,怎么隐藏桌面回收站图标
  14. JustSoso笔记
  15. 京东API详情接口调用示例
  16. 海思3559A sample的整体架构
  17. 如何查看谷歌账户的实际消费金额和扣款金额是否一致?
  18. 各种版本谷歌浏览器下载
  19. 2021年G2电站锅炉司炉考试报名及G2电站锅炉司炉试题及解析
  20. 举例说明儿化音的作用_谈谈儿化音

热门文章

  1. 为什么注销计算机用户名,电脑注销用户开机后还是登录原本的用户名进不了系统软件...
  2. 五星酒店再爆卫生丑闻,AI 能做些什么
  3. 2022最新wifi大师,wifi分销小程序源码,亲测可用
  4. 《机器学习》周志华课后习题答案——第三章 (1-7题)
  5. Nginx-限制并发、访问速率、流量
  6. 静态方法和非静态方法的区别
  7. 你了解Lumen和Nanite吗?在ue5场景制作中如何使用呢?
  8. 关于“labuladong的算法小抄”的学习笔记---第0章核心框架汇总的前半部分框架(c++版)
  9. 浅谈游戏安全 (一)
  10. Call命令使用方法