Python爬虫 boos招聘网站

本文章的所有代码和相关文章，仅用于经验技术交流分享，禁止将相关技术应用到不正当途径，滥用技术产生的风险与本人无关。
本文章是自己学习的一些记录。

爬取Boss网站的招聘信息

1、导入相关的包

#coding=utf-8
import requests,json
from lxml import  etree

2、定义url和请求头headers

url='https://www.zhipin.com/c100010000/?ka=open_joblist'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2'
}

这里要说明一下，在headers里面我一开始就按上面的设置进行爬取，发现拿不到网页的源码内容，返回的是乱七八糟的而且还不包含我们想要的内容，经过查询发现需要添加cookie,这里我添加一个博客里面有讲解cookie，https://blog.csdn.net/wuqing942274053/article/details/80426530?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159482245419195188402581%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159482245419195188402581&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allbaidu_landing_v2~default-10-80426530.pc_ecpm_v3_pc_rank_v3&utm_term=%E7%88%AC%E8%99%ABcookie
添加上cookie

url='https://www.zhipin.com/c100010000/?ka=open_joblist'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2','cookie':''
}

cookie寻找的办法：
在网页中按f12或者其他鼠标右键的检查，刷新页面：

按照红色箭头的位置，查询就可以找到cookie 把后面的内容添加到请求头headers的cookie里面即可（具体有一种cookie时效性那个还没有学）
3、发送get请求

res=requests.get(url=url,headers=headers)

4、判断get请求是否成功，成功后解析数据，并且将数据写成json数据格式

if res.status_code==200:print('请求成功')#解析数据# res_html1=res.content.decode('utf-8')html = etree.HTML(text)job_data = html.xpath('//div[@class="job-title"]//a/text()')city_data = html.xpath('//span[@class="job-area-wrapper"]//span/text()')company_data = html.xpath('//div[@class="company-text"]//h3//a[1]/text()')company_type_data = html.xpath('//div[@class="company-text"]//p//a[1]/text()')data = list(zip(job_data, city_data, company_data, company_type_data))datalist=[{'岗位':i[0],'工作地点':i[1],'公司名称':i[2],'公司类型':i[3]} for i in data]print(datalist) #返回[{'岗位': '算法工程师', '工作地点': '上海', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '嵌入式驱动开发', '工作地点': '上海·徐汇区', '公司名称': '闻泰科技', '公司类型': '智能硬件'}, {'岗位': '解决方案工程师', '工作地点': '北京', '公司名称': '美创科技', '公司类型': '信息安全'}, {'岗位': '引擎开发技术专家', '工作地点': '北京·海淀区', '公司名称': '滴滴', '公司类型': '移动互联网'}, {'岗位': '运维开发工程师', '工作地点': '北京·朝阳区', '公司名称': '猿辅导', '公司类型': '在线教育'}, {'岗位': '数值主策划', '工作地点': '北京', '公司名称': '途游游戏', '公司类型': '游戏'}, {'岗位': 'java开发工程师', '工作地点': '北京', '公司名称': '好大夫在线', '公司类型': '互联网'}, {'岗位': '服务端开发-上海-天下事业部', '工作地点': '上海', '公司名称': '网易游戏', '公司类型': '游戏'}, {'岗位': '测试工程师', '工作地点': '北京·海淀区', '公司名称': '今日头条', '公司类型': '移动互联网'}, {'岗位': '高级产品经理', '工作地点': '北京·海淀区', '公司名称': '滴滴', '公司类型': '移动互联网'}, {'岗位': '算法工程师', '工作地点': '北京', '公司名称': '瑞鹏宠物医疗集团', '公司类型': '生活服务'}, {'岗位': 'Java架构师', '工作地点': '北京', '公司名称': '凯捷', '公司类型': '互联网'}, {'岗位': 'iOS开发（高级）(J10132)', '工作地点': '上海·浦东新区', '公司名称': '喜马拉雅', '公司类型': '移动互联网'}, {'岗位': '软件工程师', '工作地点': '北京·海淀区', '公司名称': '厦门四信', '公司类型': '通信/网络设备'}, {'岗位': 'Windows开发工程师', '工作地点': '北京·海淀区', '公司名称': '快手', '公司类型': '社交网络'}, {'岗位': '高级服务器开发工程师c++', '工作地点': '北京', '公司名称': '搜狐畅游', '公司类型': '游戏'}, {'岗位': '三维GIS研发工程师', '工作地点': '北京', '公司名称': '正元地理信息', '公司类型': '计算机软件'}, {'岗位': '高级Java开发工程师', '工作地点': '北京·朝阳区', '公司名称': '猿辅导', '公司类型': '在线教育'}, {'岗位': '高级项目经理', '工作地点': '上海·浦东新区', '公司名称': '网达软件', '公司类型': '计算机软件'}, {'岗位': '后台服务开发工程师', '工作地点': '北京·海淀区', '公司名称': '腾讯', '公司类型': '互联网'}, {'岗位': '搜索广告算法工程师', '工作地点': '上海·长宁区', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '搜索/推荐策略产品经理', '工作地点': '北京', '公司名称': 'BOSS直聘', '公司类型': '人力资源服务'}, {'岗位': '游戏系统策划', '工作地点': '北京', '公司名称': '乐元素', '公司类型': '游戏'}, {'岗位': '高级Java开发工程师/技术专家', '工作地点': '北京·朝阳区', '公司名称': '蚂蚁金服', '公司类型': '互联网'}, {'岗位': '泛互联网解决方案架构师（上海）', '工作地点': '上海·徐汇区', '公司名称': '腾讯', '公司类型': '互联网'}, {'岗位': 'AI加速器Compiler工程师', '工作地点': '北京', '公司名称': 'SenseTime', '公司类型': '计算机软件'}, {'岗位': 'DBA运维工程师', '工作地点': '北京', '公司名称': '火花思维', '公司类型': '在线教育'}, {'岗位': '广告Java研发工程师', '工作地点': '上海', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '企业流程平台产品经理', '工作地点': '北京·海淀区', '公司名称': '爱奇艺', '公司类型': '互联网'}, {'岗位': '云解决方案架构师', '工作地点': '北京·朝阳区', '公司名称': '阿里云', '公司类型': '互联网'}]print(data)     #返回[('算法工程师', '上海', '拼多多', '移动互联网'), ('嵌入式驱动开发', '上海·徐汇区', '闻泰科技', '智能硬件'), ('解决方案工程师', '北京', '美创科技', '信息安全'), ('引擎开发技术专家', '北京·海淀区', '滴滴', '移动互联网'), ('运维开发工程师', '北京·朝阳区', '猿辅导', '在线教育'), ('数值主策划', '北京', '途游游戏', '游戏'), ('java开发工程师', '北京', '好大夫在线', '互联网'), ('服务端开发-上海-天下事业部', '上海', '网易游戏', '游戏'), ('测试工程师', '北京·海淀区', '今日头条', '移动互联网'), ('高级产品经理', '北京·海淀区', '滴滴', '移动互联网'), ('算法工程师', '北京', '瑞鹏宠物医疗集团', '生活服务'), ('Java架构师', '北京', '凯捷', '互联网'), ('iOS开发（高级）(J10132)', '上海·浦东新区', '喜马拉雅', '移动互联网'), ('软件工程师', '北京·海淀区', '厦门四信', '通信/网络设备'), ('Windows开发工程师', '北京·海淀区', '快手', '社交网络'), ('高级服务器开发工程师c++', '北京', '搜狐畅游', '游戏'), ('三维GIS研发工程师', '北京', '正元地理信息', '计算机软件'), ('高级Java开发工程师', '北京·朝阳区', '猿辅导', '在线教育'), ('高级项目经理', '上海·浦东新区', '网达软件', '计算机软件'), ('后台服务开发工程师', '北京·海淀区', '腾讯', '互联网'), ('搜索广告算法工程师', '上海·长宁区', '拼多多', '移动互联网'), ('搜索/推荐策略产品经理', '北京', 'BOSS直聘', '人力资源服务'), ('游戏系统策划', '北京', '乐元素', '游戏'), ('高级Java开发工程师/技术专家', '北京·朝阳区', '蚂蚁金服', '互联网'), ('泛互联网解决方案架构师（上海）', '上海·徐汇区', '腾讯', '互联网'), ('AI加速器Compiler工程师', '北京', 'SenseTime', '计算机软件'), ('DBA运维工程师', '北京', '火花思维', '在线教育'), ('广告Java研发工程师', '上海', '拼多多', '移动互联网'), ('企业流程平台产品经理', '北京·海淀区', '爱奇艺', '互联网'), ('云解决方案架构师', '北京·朝阳区', '阿里云', '互联网')]# print(len(data))with open("./bossinfo.json",'w',encoding='utf-8') as f:json.dump(datalist,f)

这个里面我使用的是xpath对数据进行解析，主要对岗位、工作地点、公司名称、公司类型进行了爬取，主要是对单页进行了数的爬取。
爬取后的结果进行了简单处理，并且写入了json文件。写入json文件大家打开可能会看到一串字母也看不清，这里需要百度一下json数据格式化的方式

类似于上面这样，将你的一长串复制进来先解析再转为中文

最终的爬取的数据json格式显示：

我一共爬取了一页共有30条数据保存在json文件中

接下来继续学习进行多页的爬取

Python爬虫 boos招聘网站相关推荐

Python爬虫某招聘网站的岗位信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
利用Python爬虫获取招聘网站职位信息
当你学会使用Python爬虫之后就会发现想要得到某些数据再也不用自己费力的去寻找,今天小千就给大家介绍一个很实用的爬虫案例,获取Boss直聘上面的招聘信息,同学们一起来学习一下了. Boss直聘爬虫案 ...
python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
python爬虫下载视频网站视频
python爬虫下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...
Python爬虫实例 wallhaven网站高清壁纸爬取。
文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取一.数据请求 1.分析网页源码 2.全网页获取二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...
python爬虫下载影视网站的电影
python爬虫下载影视网站的电影我这边选取了vip网站 F12打开调试抓包模式搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了这个请求需要携带发送数据而这个数据就是我们要的影 ...
python爬虫抓取网站技巧总结
不知道为啥要说是黑幕了??哈哈哈-..以后再理解吧 python爬虫抓取网站的一些总结技巧学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
Python爬取招聘网站
刚学python的时候,看到一位大佬说过的话 : Life is short, you need python. 昨天看了大四的毕业晚会,他们走了之后我们就是大四的了,猝不及防的就要毕业了(小小感慨 ...

Python爬虫 boos招聘网站

爬取Boss网站的招聘信息

Python爬虫 boos招聘网站相关推荐

最新文章

热门文章