概述

boss直聘(https://www.zhipin.com/)是现在互联网招聘比较火热的一个网站,本篇文章主要是针对爬取boss直聘数据遇见的一些问题进行解析。
为什么要爬取boss直聘?
哈哈哈,当然是因为简单,啪,原因如下:
(1)动态网页,爬起来难度更大,讲起来更有内容;
(2)与一般情况不同,我们所需内容通过get请求获取不了,需进行页面分析。

1、网页解析(寻找目标请求网址)

boss直聘比起其他的动态网址爬取,我自我感觉是最简单的,哈哈,因为,目标请求网址很容易就能找到,它的位置就在第一个,然后我们打开header

我们很容易就能得到它的请求网址
url = “https://www.zhipin.com/job_detail/?query=%E7%88%AC%E8%99%AB&city=101250100&industry=&position=”
在此我们需要注意到,它的请求方法是GET,因此我们在后面爬取需要将它的请求方法设置为GET。
对网站进行解析完后,接下来我们写爬虫

2、 爬虫

1.先导入我们所需的包

from urllib import request
from urllib import parse
12
url = "https://www.zhipin.com/job_detail/?query=python&city=101250100&industry=&position="
1

2.设置请求头header:
为啥要设置请求头呢?
原因:因为我们要,因为boss直聘网站有自己的反爬虫机制,如果不给定一个请求头参数的话,则会被boss直聘网站开发者识别出来你是一个爬虫机制,甚至会封掉你的IP地址,这样,你就再也不能从这个网站里爬取数据了,为了安全起见,我们需要设定一个请求头参数来模拟浏览器行为,让它无法识别我们的行为是一个爬虫机制所引导的。

headers ={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36","referer": "https://www.zhipin.com/web/common/security-check.html?seed=adYW9BEBBrky4hO1yBOcGPQ85Dg%2BEt4j6t0B5yrsn9w%3D&name=b50f9365&ts=1602053080369&callbackUrl=%2Fjob_detail%2F%3Fquery%3Dpython%26city%3D101250100%26industry%3D%26position%3D&srcReferer=https%3A%2F%2Fwww.zhipin.com%2Fchangsha%2F%3Fsid%3Dsem_pz_bdpc_dasou_title",
}
1234

3.调取python里面的爬虫包

rep = request.Request(url=ur1,headers=headers,method="GET")
resp = request.urlopen(rep)
print(resp.read())
123

运行完后它给我的是这么一串信息,但我们检查网页源代码,我们可以看到,里面的信息不止这些,但我们无法读懂,其实因为print返回的是一个bytes数据类型,在这我们需要利用decode进行解码。

print(resp.read().decode("utf-8"))``
1

遇见这种情况“您的操作太频繁,请稍后再询问”,对于一般的爬虫小孩来说,到这一步可能就会停止了,但是对于我们内行的人来说,其实是
我们的爬虫被网站反爬虫机制识别出来的,它给我们这些信息只是为了们哄我们。
因此我们需要设置多个请求头参数,至于为啥要设置多个请求头能,因为我们知道我们每一个点击行为都是一个请求浏览行为,为了不让它识别出来,因此我们需要我们的爬虫模拟的更像浏览器行为。

完整项目代码获取点这

爬取boss直聘上面的数据遇见的问题解析,是真不难!相关推荐

  1. 爬取boss直聘上面的数据遇见的问题解析

    概述 boss直聘(https://www.zhipin.com/)是现在互联网招聘比较火热的一个网站,本篇文章主要是针对爬取boss直聘数据遇见的一些问题进行解析. 为什么要爬取boss直聘? 哈哈 ...

  2. python爬虫学习(一)爬取boss直聘一页数据

    第一次爬数据遇到了很多坎儿,游走在各大大佬们的经验贴中,最终顺利完成任务,记录下来,以便我这猪脑忘记! (一)任务 爬取"上海市"+"web前端"+" ...

  3. python爬取boss直聘招聘信息_python学习之路-爬取boss直聘的岗位信息

    背景 想了解从事python相关岗位需要具备什么技能,于是就想从招聘网站上的职位需求入手,把信息获取下来后,生成词云,这样就能很直观的看出来哪些技能是python相关岗位需要具备的了. 技术概览 sc ...

  4. python爬取boss直聘招聘信息_Python笔记-爬取Boss直聘的招聘信息

    2018-05-09笔记: 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使用正则来获取 本来 ...

  5. Python笔记-爬取Boss直聘的招聘信息

    Python笔记-爬取Boss直聘的招聘信息 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使 ...

  6. 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)

    使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...

  7. 爬取boss直聘数据并分析

    爬取boss直聘数据并进行分析 1. 爬取boss直聘数据 因为高匿的代理IP要钱,所以小编只能通过增大时间间隔并利用selenium自动化库模拟人自然浏览网站来爬取数据,最终获得北京,上海,杭州,广 ...

  8. Python爬虫:爬取“Boss直聘”招聘数据

    hello 大家好~ 又是元气满满的一天呢~ 既然元气满满,要不要搞点事情,譬如说,爬取"Boss直聘"(此处模仿歪果仁讲话更带感)的招聘数据~ 说走咱就走,说干咱就干~" ...

  9. 爬取Boss直聘拿下来的假数据

    下面是我在爬取BOSS直聘时遇到的,给我的公司都是假数据,原因是因为没有及时更换代理ip被识别出来是爬虫了,其实解决这种问题最好的办法就是更换代理Ip和更换请求头 在更换代理和请求头之后,没有出现访问 ...

最新文章

  1. auth0的java-jwt_Spring boot + JWT 实现安全验证 ---auth0.jwt
  2. 你是一个职业的页面重构工作者吗?
  3. 【PAT乙级】1080 MOOC期终成绩 (25 分)
  4. Linux网络环境配置
  5. java 文件比较_java 四种写文件比较
  6. Windows下 VS2015编译boost1.62
  7. mybatis:在springboot中的配置
  8. Java 并发编程之 ConcurrentHashMap,ConcurrentSkipListMap
  9. dedeCms在首页显示要搜索的关键词
  10. 王庆的边缘计算(第四章)
  11. 你专属的程序员春节“大礼包”
  12. 商城前端模板_新零售时代如何玩转微信商城
  13. 《缠中说禅108课》27: 盘整背驰与历史性底部
  14. linux摄像头内核驱动开发,Linux系统下USB摄像头驱动开发
  15. HTML课题背景怎么写,课题研究的背景和意义怎么写
  16. 幼麟・闪影・奎特尔~2019不太冷!
  17. Win8Metro(C#)数字图像处理--2.26图像减法
  18. 跨namespace通信
  19. Cadence Allegro如何添加泪滴
  20. IoTSAFE:Enforcing Safety and Security Policy with Real IoT Physical Interaction Discovery

热门文章

  1. 搭建个人站点——服务器环境(Linux)及工具准备(一)
  2. 数据结构实验报告线性表的应用
  3. 深度解密京东登月平台基础架构
  4. matlab 鼠标事件,MATLAB鼠标事件应用(记录)
  5. php判断手机还是电脑
  6. 日语二级能力考试204个语法(中文详解)
  7. PHP书籍推荐TOP10排行榜
  8. Hadoop启动时,没有启动DataNode
  9. SpringBoot初级学习笔记--稀客大大
  10. 六大布局之LinearLayout