Python爬虫 boos招聘网站
本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关。
本文章是自己学习的一些记录。
爬取Boss网站的招聘信息
1、导入相关的包
#coding=utf-8
import requests,json
from lxml import etree
2、定义url和请求头headers
url='https://www.zhipin.com/c100010000/?ka=open_joblist'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2'
}
这里要说明一下,在headers里面我一开始就按上面的设置进行爬取,发现拿不到网页的源码内容,返回的是乱七八糟的而且还不包含我们想要的内容,经过查询发现需要添加cookie,这里我添加一个博客里面有讲解cookie,https://blog.csdn.net/wuqing942274053/article/details/80426530?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159482245419195188402581%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159482245419195188402581&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allbaidu_landing_v2~default-10-80426530.pc_ecpm_v3_pc_rank_v3&utm_term=%E7%88%AC%E8%99%ABcookie
添加上cookie
url='https://www.zhipin.com/c100010000/?ka=open_joblist'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2','cookie':''
}
cookie寻找的办法:
在网页中按f12或者其他鼠标右键的检查,刷新页面:
按照红色箭头的位置,查询就可以找到cookie 把后面的内容添加到请求头headers的cookie里面即可(具体有一种cookie时效性那个还没有学)
3、发送get请求
res=requests.get(url=url,headers=headers)
4、判断get请求是否成功,成功后解析数据,并且将数据写成json数据格式
if res.status_code==200:print('请求成功')#解析数据# res_html1=res.content.decode('utf-8')html = etree.HTML(text)job_data = html.xpath('//div[@class="job-title"]//a/text()')city_data = html.xpath('//span[@class="job-area-wrapper"]//span/text()')company_data = html.xpath('//div[@class="company-text"]//h3//a[1]/text()')company_type_data = html.xpath('//div[@class="company-text"]//p//a[1]/text()')data = list(zip(job_data, city_data, company_data, company_type_data))datalist=[{'岗位':i[0],'工作地点':i[1],'公司名称':i[2],'公司类型':i[3]} for i in data]print(datalist) #返回[{'岗位': '算法工程师', '工作地点': '上海', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '嵌入式驱动开发', '工作地点': '上海·徐汇区', '公司名称': '闻泰科技', '公司类型': '智能硬件'}, {'岗位': '解决方案工程师', '工作地点': '北京', '公司名称': '美创科技', '公司类型': '信息安全'}, {'岗位': '引擎开发技术专家', '工作地点': '北京·海淀区', '公司名称': '滴滴', '公司类型': '移动互联网'}, {'岗位': '运维开发工程师', '工作地点': '北京·朝阳区', '公司名称': '猿辅导', '公司类型': '在线教育'}, {'岗位': '数值主策划', '工作地点': '北京', '公司名称': '途游游戏', '公司类型': '游戏'}, {'岗位': 'java开发工程师', '工作地点': '北京', '公司名称': '好大夫在线', '公司类型': '互联网'}, {'岗位': '服务端开发-上海-天下事业部', '工作地点': '上海', '公司名称': '网易游戏', '公司类型': '游戏'}, {'岗位': '测试工程师', '工作地点': '北京·海淀区', '公司名称': '今日头条', '公司类型': '移动互联网'}, {'岗位': '高级产品经理', '工作地点': '北京·海淀区', '公司名称': '滴滴', '公司类型': '移动互联网'}, {'岗位': '算法工程师', '工作地点': '北京', '公司名称': '瑞鹏宠物医疗集团', '公司类型': '生活服务'}, {'岗位': 'Java架构师', '工作地点': '北京', '公司名称': '凯捷', '公司类型': '互联网'}, {'岗位': 'iOS开发(高级)(J10132)', '工作地点': '上海·浦东新区', '公司名称': '喜马拉雅', '公司类型': '移动互联网'}, {'岗位': '软件工程师', '工作地点': '北京·海淀区', '公司名称': '厦门四信', '公司类型': '通信/网络设备'}, {'岗位': 'Windows开发工程师', '工作地点': '北京·海淀区', '公司名称': '快手', '公司类型': '社交网络'}, {'岗位': '高级服务器开发工程师c++', '工作地点': '北京', '公司名称': '搜狐畅游', '公司类型': '游戏'}, {'岗位': '三维GIS研发工程师', '工作地点': '北京', '公司名称': '正元地理信息', '公司类型': '计算机软件'}, {'岗位': '高级Java开发工程师', '工作地点': '北京·朝阳区', '公司名称': '猿辅导', '公司类型': '在线教育'}, {'岗位': '高级项目经理', '工作地点': '上海·浦东新区', '公司名称': '网达软件', '公司类型': '计算机软件'}, {'岗位': '后台服务开发工程师', '工作地点': '北京·海淀区', '公司名称': '腾讯', '公司类型': '互联网'}, {'岗位': '搜索广告算法工程师', '工作地点': '上海·长宁区', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '搜索/推荐策略产品经理', '工作地点': '北京', '公司名称': 'BOSS直聘', '公司类型': '人力资源服务'}, {'岗位': '游戏系统策划', '工作地点': '北京', '公司名称': '乐元素', '公司类型': '游戏'}, {'岗位': '高级Java开发工程师/技术专家', '工作地点': '北京·朝阳区', '公司名称': '蚂蚁金服', '公司类型': '互联网'}, {'岗位': '泛互联网解决方案架构师(上海)', '工作地点': '上海·徐汇区', '公司名称': '腾讯', '公司类型': '互联网'}, {'岗位': 'AI加速器Compiler工程师', '工作地点': '北京', '公司名称': 'SenseTime', '公司类型': '计算机软件'}, {'岗位': 'DBA运维工程师', '工作地点': '北京', '公司名称': '火花思维', '公司类型': '在线教育'}, {'岗位': '广告Java研发工程师', '工作地点': '上海', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '企业流程平台产品经理', '工作地点': '北京·海淀区', '公司名称': '爱奇艺', '公司类型': '互联网'}, {'岗位': '云解决方案架构师', '工作地点': '北京·朝阳区', '公司名称': '阿里云', '公司类型': '互联网'}]print(data) #返回[('算法工程师', '上海', '拼多多', '移动互联网'), ('嵌入式驱动开发', '上海·徐汇区', '闻泰科技', '智能硬件'), ('解决方案工程师', '北京', '美创科技', '信息安全'), ('引擎开发技术专家', '北京·海淀区', '滴滴', '移动互联网'), ('运维开发工程师', '北京·朝阳区', '猿辅导', '在线教育'), ('数值主策划', '北京', '途游游戏', '游戏'), ('java开发工程师', '北京', '好大夫在线', '互联网'), ('服务端开发-上海-天下事业部', '上海', '网易游戏', '游戏'), ('测试工程师', '北京·海淀区', '今日头条', '移动互联网'), ('高级产品经理', '北京·海淀区', '滴滴', '移动互联网'), ('算法工程师', '北京', '瑞鹏宠物医疗集团', '生活服务'), ('Java架构师', '北京', '凯捷', '互联网'), ('iOS开发(高级)(J10132)', '上海·浦东新区', '喜马拉雅', '移动互联网'), ('软件工程师', '北京·海淀区', '厦门四信', '通信/网络设备'), ('Windows开发工程师', '北京·海淀区', '快手', '社交网络'), ('高级服务器开发工程师c++', '北京', '搜狐畅游', '游戏'), ('三维GIS研发工程师', '北京', '正元地理信息', '计算机软件'), ('高级Java开发工程师', '北京·朝阳区', '猿辅导', '在线教育'), ('高级项目经理', '上海·浦东新区', '网达软件', '计算机软件'), ('后台服务开发工程师', '北京·海淀区', '腾讯', '互联网'), ('搜索广告算法工程师', '上海·长宁区', '拼多多', '移动互联网'), ('搜索/推荐策略产品经理', '北京', 'BOSS直聘', '人力资源服务'), ('游戏系统策划', '北京', '乐元素', '游戏'), ('高级Java开发工程师/技术专家', '北京·朝阳区', '蚂蚁金服', '互联网'), ('泛互联网解决方案架构师(上海)', '上海·徐汇区', '腾讯', '互联网'), ('AI加速器Compiler工程师', '北京', 'SenseTime', '计算机软件'), ('DBA运维工程师', '北京', '火花思维', '在线教育'), ('广告Java研发工程师', '上海', '拼多多', '移动互联网'), ('企业流程平台产品经理', '北京·海淀区', '爱奇艺', '互联网'), ('云解决方案架构师', '北京·朝阳区', '阿里云', '互联网')]# print(len(data))with open("./bossinfo.json",'w',encoding='utf-8') as f:json.dump(datalist,f)
这个里面我使用的是xpath对数据进行解析 ,主要对岗位、工作地点、公司名称、公司类型进行了爬取,主要是对单页进行了数的爬取。
爬取后的结果进行了简单处理,并且写入了json文件。写入json文件大家打开可能会看到一串字母也看不清,这里需要百度一下json数据格式化的方式
类似于上面这样,将你的一长串复制进来先解析 再转为中文
最终 的爬取的数据json格式显示:
我一共爬取了一页 共有30条数据 保存在json文件中
接下来继续学习 进行多页的爬取
Python爬虫 boos招聘网站相关推荐
- Python爬虫某招聘网站的岗位信息
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
- 利用Python爬虫获取招聘网站职位信息
当你学会使用Python爬虫之后就会发现想要得到某些数据再也不用自己费力的去寻找,今天小千就给大家介绍一个很实用的爬虫案例,获取Boss直聘上面的招聘信息,同学们一起来学习一下了. Boss直聘爬虫案 ...
- python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
- python爬虫 下载视频网站视频
python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...
- Python爬虫实例 wallhaven网站高清壁纸爬取。
文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取 一.数据请求 1.分析网页源码 2.全网页获取 二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...
- python爬虫下载影视网站的电影
python爬虫下载影视网站的电影 我这边选取了vip网站 F12打开调试抓包模式 搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了 这个请求需要携带发送数据 而这个数据就是我们要的影 ...
- python爬虫抓取网站技巧总结
不知道为啥要说是黑幕了??哈哈哈-..以后再理解吧 python爬虫抓取网站的一些总结技巧 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛 ...
- python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
- Python爬取招聘网站
刚学python的时候,看到一位大佬说过的话 : Life is short, you need python. 昨天看了大四的毕业晚会,他们走了之后我们就是大四的了,猝不及防的就要毕业了(小小感慨 ...
最新文章
- Java学习总结:27
- Python 简单入门指北(二)
- 南昌大学c程序计算机作业,南昌大学计算机作业第二章答案
- 【代码笔记】iOS-下拉选项cell
- CLI下的网页浏览器之二——Lynx
- python类的属性和对象属性_python 类属性、对象属性-阿里云开发者社区
- httplib java_httplib发布调用错误
- 如何解决MySQL中的死锁问题?
- 大数据学习笔记10:MR案例——词频统计
- STM32工作笔记0009---认识FSMC和TTL电路
- 【OpenCV】音符提取(形态学实例)
- 设计模式的C++实现 2.工厂模式
- Python---基础-运算符int和range函数
- 手工安装hr表+oracle,[20200825]手工安装HR schema.txt
- 软考高级网络规划设计师历年论文真题汇总2009-2021
- 一键清理windows系统垃圾|临时文件bat脚本
- 霍夫丁------霍夫丁不等式
- PowerDesigner建立数据库模型
- tensorflow实现对图片的读取(tf.image.decode_jepg和tf.image.decode_png)
- 【菜鸟C++学习杂记】ASCII码转换和显示
热门文章
- PTA:7-10 深入虎穴 (25 分)
- Tomcat 启动时间过长 Connection has been abandoned PooledConnection
- 《学术研究你的成功之道》读书笔记之论文篇
- adonis.js mysql_专注于易用性与速度的Nodejs Web和微服务框架——Adonis
- 国内开源软件镜像地址
- 计算机导论知识点总结与试题
- 当串口助手发送数据给单片机,单片机原封不动转发给串口助手显示
- HHUOJ 1818 More is better
- 机械硬盘中的LMR、PMR、CMR、SMR的定义和关系
- 景观照明酒店照明LED筒灯等灯具价格的影响因素