本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关。
本文章是自己学习的一些记录。

爬取Boss网站的招聘信息

1、导入相关的包

#coding=utf-8
import requests,json
from lxml import  etree

2、定义url和请求头headers

url='https://www.zhipin.com/c100010000/?ka=open_joblist'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2'
}

这里要说明一下,在headers里面我一开始就按上面的设置进行爬取,发现拿不到网页的源码内容,返回的是乱七八糟的而且还不包含我们想要的内容,经过查询发现需要添加cookie,这里我添加一个博客里面有讲解cookie,https://blog.csdn.net/wuqing942274053/article/details/80426530?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159482245419195188402581%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159482245419195188402581&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allbaidu_landing_v2~default-10-80426530.pc_ecpm_v3_pc_rank_v3&utm_term=%E7%88%AC%E8%99%ABcookie
添加上cookie

url='https://www.zhipin.com/c100010000/?ka=open_joblist'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2','cookie':''
}

cookie寻找的办法:
在网页中按f12或者其他鼠标右键的检查,刷新页面:

按照红色箭头的位置,查询就可以找到cookie 把后面的内容添加到请求头headers的cookie里面即可(具体有一种cookie时效性那个还没有学)
3、发送get请求

res=requests.get(url=url,headers=headers)

4、判断get请求是否成功,成功后解析数据,并且将数据写成json数据格式

if res.status_code==200:print('请求成功')#解析数据# res_html1=res.content.decode('utf-8')html = etree.HTML(text)job_data = html.xpath('//div[@class="job-title"]//a/text()')city_data = html.xpath('//span[@class="job-area-wrapper"]//span/text()')company_data = html.xpath('//div[@class="company-text"]//h3//a[1]/text()')company_type_data = html.xpath('//div[@class="company-text"]//p//a[1]/text()')data = list(zip(job_data, city_data, company_data, company_type_data))datalist=[{'岗位':i[0],'工作地点':i[1],'公司名称':i[2],'公司类型':i[3]} for i in data]print(datalist) #返回[{'岗位': '算法工程师', '工作地点': '上海', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '嵌入式驱动开发', '工作地点': '上海·徐汇区', '公司名称': '闻泰科技', '公司类型': '智能硬件'}, {'岗位': '解决方案工程师', '工作地点': '北京', '公司名称': '美创科技', '公司类型': '信息安全'}, {'岗位': '引擎开发技术专家', '工作地点': '北京·海淀区', '公司名称': '滴滴', '公司类型': '移动互联网'}, {'岗位': '运维开发工程师', '工作地点': '北京·朝阳区', '公司名称': '猿辅导', '公司类型': '在线教育'}, {'岗位': '数值主策划', '工作地点': '北京', '公司名称': '途游游戏', '公司类型': '游戏'}, {'岗位': 'java开发工程师', '工作地点': '北京', '公司名称': '好大夫在线', '公司类型': '互联网'}, {'岗位': '服务端开发-上海-天下事业部', '工作地点': '上海', '公司名称': '网易游戏', '公司类型': '游戏'}, {'岗位': '测试工程师', '工作地点': '北京·海淀区', '公司名称': '今日头条', '公司类型': '移动互联网'}, {'岗位': '高级产品经理', '工作地点': '北京·海淀区', '公司名称': '滴滴', '公司类型': '移动互联网'}, {'岗位': '算法工程师', '工作地点': '北京', '公司名称': '瑞鹏宠物医疗集团', '公司类型': '生活服务'}, {'岗位': 'Java架构师', '工作地点': '北京', '公司名称': '凯捷', '公司类型': '互联网'}, {'岗位': 'iOS开发(高级)(J10132)', '工作地点': '上海·浦东新区', '公司名称': '喜马拉雅', '公司类型': '移动互联网'}, {'岗位': '软件工程师', '工作地点': '北京·海淀区', '公司名称': '厦门四信', '公司类型': '通信/网络设备'}, {'岗位': 'Windows开发工程师', '工作地点': '北京·海淀区', '公司名称': '快手', '公司类型': '社交网络'}, {'岗位': '高级服务器开发工程师c++', '工作地点': '北京', '公司名称': '搜狐畅游', '公司类型': '游戏'}, {'岗位': '三维GIS研发工程师', '工作地点': '北京', '公司名称': '正元地理信息', '公司类型': '计算机软件'}, {'岗位': '高级Java开发工程师', '工作地点': '北京·朝阳区', '公司名称': '猿辅导', '公司类型': '在线教育'}, {'岗位': '高级项目经理', '工作地点': '上海·浦东新区', '公司名称': '网达软件', '公司类型': '计算机软件'}, {'岗位': '后台服务开发工程师', '工作地点': '北京·海淀区', '公司名称': '腾讯', '公司类型': '互联网'}, {'岗位': '搜索广告算法工程师', '工作地点': '上海·长宁区', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '搜索/推荐策略产品经理', '工作地点': '北京', '公司名称': 'BOSS直聘', '公司类型': '人力资源服务'}, {'岗位': '游戏系统策划', '工作地点': '北京', '公司名称': '乐元素', '公司类型': '游戏'}, {'岗位': '高级Java开发工程师/技术专家', '工作地点': '北京·朝阳区', '公司名称': '蚂蚁金服', '公司类型': '互联网'}, {'岗位': '泛互联网解决方案架构师(上海)', '工作地点': '上海·徐汇区', '公司名称': '腾讯', '公司类型': '互联网'}, {'岗位': 'AI加速器Compiler工程师', '工作地点': '北京', '公司名称': 'SenseTime', '公司类型': '计算机软件'}, {'岗位': 'DBA运维工程师', '工作地点': '北京', '公司名称': '火花思维', '公司类型': '在线教育'}, {'岗位': '广告Java研发工程师', '工作地点': '上海', '公司名称': '拼多多', '公司类型': '移动互联网'}, {'岗位': '企业流程平台产品经理', '工作地点': '北京·海淀区', '公司名称': '爱奇艺', '公司类型': '互联网'}, {'岗位': '云解决方案架构师', '工作地点': '北京·朝阳区', '公司名称': '阿里云', '公司类型': '互联网'}]print(data)     #返回[('算法工程师', '上海', '拼多多', '移动互联网'), ('嵌入式驱动开发', '上海·徐汇区', '闻泰科技', '智能硬件'), ('解决方案工程师', '北京', '美创科技', '信息安全'), ('引擎开发技术专家', '北京·海淀区', '滴滴', '移动互联网'), ('运维开发工程师', '北京·朝阳区', '猿辅导', '在线教育'), ('数值主策划', '北京', '途游游戏', '游戏'), ('java开发工程师', '北京', '好大夫在线', '互联网'), ('服务端开发-上海-天下事业部', '上海', '网易游戏', '游戏'), ('测试工程师', '北京·海淀区', '今日头条', '移动互联网'), ('高级产品经理', '北京·海淀区', '滴滴', '移动互联网'), ('算法工程师', '北京', '瑞鹏宠物医疗集团', '生活服务'), ('Java架构师', '北京', '凯捷', '互联网'), ('iOS开发(高级)(J10132)', '上海·浦东新区', '喜马拉雅', '移动互联网'), ('软件工程师', '北京·海淀区', '厦门四信', '通信/网络设备'), ('Windows开发工程师', '北京·海淀区', '快手', '社交网络'), ('高级服务器开发工程师c++', '北京', '搜狐畅游', '游戏'), ('三维GIS研发工程师', '北京', '正元地理信息', '计算机软件'), ('高级Java开发工程师', '北京·朝阳区', '猿辅导', '在线教育'), ('高级项目经理', '上海·浦东新区', '网达软件', '计算机软件'), ('后台服务开发工程师', '北京·海淀区', '腾讯', '互联网'), ('搜索广告算法工程师', '上海·长宁区', '拼多多', '移动互联网'), ('搜索/推荐策略产品经理', '北京', 'BOSS直聘', '人力资源服务'), ('游戏系统策划', '北京', '乐元素', '游戏'), ('高级Java开发工程师/技术专家', '北京·朝阳区', '蚂蚁金服', '互联网'), ('泛互联网解决方案架构师(上海)', '上海·徐汇区', '腾讯', '互联网'), ('AI加速器Compiler工程师', '北京', 'SenseTime', '计算机软件'), ('DBA运维工程师', '北京', '火花思维', '在线教育'), ('广告Java研发工程师', '上海', '拼多多', '移动互联网'), ('企业流程平台产品经理', '北京·海淀区', '爱奇艺', '互联网'), ('云解决方案架构师', '北京·朝阳区', '阿里云', '互联网')]# print(len(data))with open("./bossinfo.json",'w',encoding='utf-8') as f:json.dump(datalist,f)

这个里面我使用的是xpath对数据进行解析 ,主要对岗位、工作地点、公司名称、公司类型进行了爬取,主要是对单页进行了数的爬取。
爬取后的结果进行了简单处理,并且写入了json文件。写入json文件大家打开可能会看到一串字母也看不清,这里需要百度一下json数据格式化的方式

类似于上面这样,将你的一长串复制进来先解析 再转为中文

最终 的爬取的数据json格式显示:

我一共爬取了一页 共有30条数据 保存在json文件中

接下来继续学习 进行多页的爬取

Python爬虫 boos招聘网站相关推荐

  1. Python爬虫某招聘网站的岗位信息

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  2. 利用Python爬虫获取招聘网站职位信息

    当你学会使用Python爬虫之后就会发现想要得到某些数据再也不用自己费力的去寻找,今天小千就给大家介绍一个很实用的爬虫案例,获取Boss直聘上面的招聘信息,同学们一起来学习一下了. Boss直聘爬虫案 ...

  3. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  4. python爬虫 下载视频网站视频

    python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...

  5. Python爬虫实例 wallhaven网站高清壁纸爬取。

    文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取 一.数据请求 1.分析网页源码 2.全网页获取 二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...

  6. python爬虫下载影视网站的电影

    python爬虫下载影视网站的电影 我这边选取了vip网站 F12打开调试抓包模式 搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了 这个请求需要携带发送数据 而这个数据就是我们要的影 ...

  7. python爬虫抓取网站技巧总结

    不知道为啥要说是黑幕了??哈哈哈-..以后再理解吧 python爬虫抓取网站的一些总结技巧 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛 ...

  8. python爬虫之小说网站--下载小说(正则表达式)

    python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...

  9. Python爬取招聘网站

    刚学python的时候,看到一位大佬说过的话 : Life is short, you need python.  昨天看了大四的毕业晚会,他们走了之后我们就是大四的了,猝不及防的就要毕业了(小小感慨 ...

最新文章

  1. Java学习总结:27
  2. Python 简单入门指北(二)
  3. 南昌大学c程序计算机作业,南昌大学计算机作业第二章答案
  4. 【代码笔记】iOS-下拉选项cell
  5. CLI下的网页浏览器之二——Lynx
  6. python类的属性和对象属性_python 类属性、对象属性-阿里云开发者社区
  7. httplib java_httplib发布调用错误
  8. 如何解决MySQL中的死锁问题?
  9. 大数据学习笔记10:MR案例——词频统计
  10. STM32工作笔记0009---认识FSMC和TTL电路
  11. 【OpenCV】音符提取(形态学实例)
  12. 设计模式的C++实现 2.工厂模式
  13. Python---基础-运算符int和range函数
  14. 手工安装hr表+oracle,[20200825]手工安装HR schema.txt
  15. 软考高级网络规划设计师历年论文真题汇总2009-2021
  16. 一键清理windows系统垃圾|临时文件bat脚本
  17. 霍夫丁------霍夫丁不等式
  18. PowerDesigner建立数据库模型
  19. tensorflow实现对图片的读取(tf.image.decode_jepg和tf.image.decode_png)
  20. 【菜鸟C++学习杂记】ASCII码转换和显示

热门文章

  1. PTA:7-10 深入虎穴 (25 分)
  2. Tomcat 启动时间过长 Connection has been abandoned PooledConnection
  3. 《学术研究你的成功之道》读书笔记之论文篇
  4. adonis.js mysql_专注于易用性与速度的Nodejs Web和微服务框架——Adonis
  5. 国内开源软件镜像地址
  6. 计算机导论知识点总结与试题
  7. 当串口助手发送数据给单片机,单片机原封不动转发给串口助手显示
  8. HHUOJ 1818 More is better
  9. 机械硬盘中的LMR、PMR、CMR、SMR的定义和关系
  10. 景观照明酒店照明LED筒灯等灯具价格的影响因素