爬取boss直聘上面的数据遇见的问题解析,是真不难!
概述
boss直聘(https://www.zhipin.com/)是现在互联网招聘比较火热的一个网站,本篇文章主要是针对爬取boss直聘数据遇见的一些问题进行解析。
为什么要爬取boss直聘?
哈哈哈,当然是因为简单,啪,原因如下:
(1)动态网页,爬起来难度更大,讲起来更有内容;
(2)与一般情况不同,我们所需内容通过get请求获取不了,需进行页面分析。
1、网页解析(寻找目标请求网址)
boss直聘比起其他的动态网址爬取,我自我感觉是最简单的,哈哈,因为,目标请求网址很容易就能找到,它的位置就在第一个,然后我们打开header
我们很容易就能得到它的请求网址
url = “https://www.zhipin.com/job_detail/?query=%E7%88%AC%E8%99%AB&city=101250100&industry=&position=”
在此我们需要注意到,它的请求方法是GET,因此我们在后面爬取需要将它的请求方法设置为GET。
对网站进行解析完后,接下来我们写爬虫
2、 爬虫
1.先导入我们所需的包
from urllib import request from urllib import parse 12
url = "https://www.zhipin.com/job_detail/?query=python&city=101250100&industry=&position=" 1
2.设置请求头header:
为啥要设置请求头呢?
原因:因为我们要,因为boss直聘网站有自己的反爬虫机制,如果不给定一个请求头参数的话,则会被boss直聘网站开发者识别出来你是一个爬虫机制,甚至会封掉你的IP地址,这样,你就再也不能从这个网站里爬取数据了,为了安全起见,我们需要设定一个请求头参数来模拟浏览器行为,让它无法识别我们的行为是一个爬虫机制所引导的。
headers ={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36","referer": "https://www.zhipin.com/web/common/security-check.html?seed=adYW9BEBBrky4hO1yBOcGPQ85Dg%2BEt4j6t0B5yrsn9w%3D&name=b50f9365&ts=1602053080369&callbackUrl=%2Fjob_detail%2F%3Fquery%3Dpython%26city%3D101250100%26industry%3D%26position%3D&srcReferer=https%3A%2F%2Fwww.zhipin.com%2Fchangsha%2F%3Fsid%3Dsem_pz_bdpc_dasou_title", } 1234
3.调取python里面的爬虫包
rep = request.Request(url=ur1,headers=headers,method="GET") resp = request.urlopen(rep) print(resp.read()) 123
运行完后它给我的是这么一串信息,但我们检查网页源代码,我们可以看到,里面的信息不止这些,但我们无法读懂,其实因为print返回的是一个bytes数据类型,在这我们需要利用decode进行解码。
print(resp.read().decode("utf-8"))`` 1
遇见这种情况“您的操作太频繁,请稍后再询问”,对于一般的爬虫小孩来说,到这一步可能就会停止了,但是对于我们内行的人来说,其实是
我们的爬虫被网站反爬虫机制识别出来的,它给我们这些信息只是为了们哄我们。
因此我们需要设置多个请求头参数,至于为啥要设置多个请求头能,因为我们知道我们每一个点击行为都是一个请求浏览行为,为了不让它识别出来,因此我们需要我们的爬虫模拟的更像浏览器行为。
完整项目代码获取点这
爬取boss直聘上面的数据遇见的问题解析,是真不难!相关推荐
- 爬取boss直聘上面的数据遇见的问题解析
概述 boss直聘(https://www.zhipin.com/)是现在互联网招聘比较火热的一个网站,本篇文章主要是针对爬取boss直聘数据遇见的一些问题进行解析. 为什么要爬取boss直聘? 哈哈 ...
- python爬虫学习(一)爬取boss直聘一页数据
第一次爬数据遇到了很多坎儿,游走在各大大佬们的经验贴中,最终顺利完成任务,记录下来,以便我这猪脑忘记! (一)任务 爬取"上海市"+"web前端"+" ...
- python爬取boss直聘招聘信息_python学习之路-爬取boss直聘的岗位信息
背景 想了解从事python相关岗位需要具备什么技能,于是就想从招聘网站上的职位需求入手,把信息获取下来后,生成词云,这样就能很直观的看出来哪些技能是python相关岗位需要具备的了. 技术概览 sc ...
- python爬取boss直聘招聘信息_Python笔记-爬取Boss直聘的招聘信息
2018-05-09笔记: 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使用正则来获取 本来 ...
- Python笔记-爬取Boss直聘的招聘信息
Python笔记-爬取Boss直聘的招聘信息 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使 ...
- 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)
使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...
- 爬取boss直聘数据并分析
爬取boss直聘数据并进行分析 1. 爬取boss直聘数据 因为高匿的代理IP要钱,所以小编只能通过增大时间间隔并利用selenium自动化库模拟人自然浏览网站来爬取数据,最终获得北京,上海,杭州,广 ...
- Python爬虫:爬取“Boss直聘”招聘数据
hello 大家好~ 又是元气满满的一天呢~ 既然元气满满,要不要搞点事情,譬如说,爬取"Boss直聘"(此处模仿歪果仁讲话更带感)的招聘数据~ 说走咱就走,说干咱就干~" ...
- 爬取Boss直聘拿下来的假数据
下面是我在爬取BOSS直聘时遇到的,给我的公司都是假数据,原因是因为没有及时更换代理ip被识别出来是爬虫了,其实解决这种问题最好的办法就是更换代理Ip和更换请求头 在更换代理和请求头之后,没有出现访问 ...
最新文章
- auth0的java-jwt_Spring boot + JWT 实现安全验证 ---auth0.jwt
- 你是一个职业的页面重构工作者吗?
- 【PAT乙级】1080 MOOC期终成绩 (25 分)
- Linux网络环境配置
- java 文件比较_java 四种写文件比较
- Windows下 VS2015编译boost1.62
- mybatis:在springboot中的配置
- Java 并发编程之 ConcurrentHashMap,ConcurrentSkipListMap
- dedeCms在首页显示要搜索的关键词
- 王庆的边缘计算(第四章)
- 你专属的程序员春节“大礼包”
- 商城前端模板_新零售时代如何玩转微信商城
- 《缠中说禅108课》27: 盘整背驰与历史性底部
- linux摄像头内核驱动开发,Linux系统下USB摄像头驱动开发
- HTML课题背景怎么写,课题研究的背景和意义怎么写
- 幼麟・闪影・奎特尔~2019不太冷!
- Win8Metro(C#)数字图像处理--2.26图像减法
- 跨namespace通信
- Cadence Allegro如何添加泪滴
- IoTSAFE:Enforcing Safety and Security Policy with Real IoT Physical Interaction Discovery