BOSS招聘网站数据分析岗位分析详情

数据来源于BOSS招聘网站,仅供学习

#导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re

#中文显示及负号显示
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
plt.rcParams[‘axes.unicode_minus’]=False

#读取数据
df = pd.read_csv(’./boss.csv’,header=None,names=[‘公司’,‘职位’,‘地点’,‘薪资’,‘工作经验及学历’,‘所属行业’,‘详情’])
df.head()

#查看数据详情
df.info()

#查看是否有重复
df.duplicated().sum()

#删除重复
df.drop_duplicates(inplace=True)

#确认是否删除
df.duplicated().sum()

#查看职位信息
df[‘职位’].unique()

#发现有找实习岗位
sx = df[‘职位’].str.contains(‘实习’)
sx.sum()

#实习岗位数量较少,需进行删除
df = df[~sx]
df.reset_index(drop=True,inplace=True)
df.head()

#查看地点
df[‘地点’].unique()

#查看薪资
df[‘薪资’].unique()

#薪资进行拆分,分为最高薪资和最低薪资
df[‘最低薪资’] = df[‘薪资’].str.extract(’^(\d+).’)
df[‘最高薪资’] = df[‘薪资’].str.extract(’^.
?-(\d+).*’)
df.head()

#有些公司薪资包含有奖金,计算每个岗位的奖金率
df[‘奖金率’] = df[‘薪资’].str.extract(’^.*?·(\d{2})薪’)
df[‘奖金率’].fillna(12,inplace=True)
df[‘奖金率’] = df[‘奖金率’].astype(‘float’)
df[‘奖金率’] = df[‘奖金率’] / 12
df.head()

#计算平均薪资
df[‘最高薪资’] = df[‘最高薪资’].astype(‘int’)
df[‘最低薪资’] = df[‘最低薪资’].astype(‘int’)
df[‘平均薪资’] = (df[‘最高薪资’] + df[‘最低薪资’]) / 2
df.head()

#查看薪资详情
df.describe()

#剔除异常薪资
df = df[(df.平均薪资 > 3)&(df.平均薪资 < 70)]
df.describe()

#查看工作经验及学历
df[‘工作经验及学历’].unique()

#将工作经验和学历进行拆分
df[‘工作经验’] = df[‘工作经验及学历’].str.extract(’^(\d+/?-\d+)’)
df[‘学历’] = df[‘工作经验及学历’].str[-2:]
df.head()

#查看工作经验
df[‘工作经验’].unique()

#将工作经验进行分层
df[‘工作经验’].replace(‘1-3’,‘1-3年’,inplace=True)
df[‘工作经验’].replace(‘3-5’,‘3-5年’,inplace=True)
df[‘工作经验’].replace(‘5-10’,‘5-10年’,inplace=True)
df[‘工作经验’].replace(np.nan,‘经验不限’,inplace=True)
df[‘工作经验’].unique()

#查看学历
df[‘学历’].unique()

#查看所属行业
df.所属行业.value_counts()[:15]

#查看不同城市的平均薪资和中位数薪资
plt.figure(figsize=(14,8))
df[‘平均薪资’].groupby(df[‘地点’]).agg([‘mean’,‘median’]).plot.bar()

由图可知,发现上海,北京,杭州,深圳四个城市的薪资水平远远高于其它城市,广州紧随其后

#不同薪资的数量分布
plt.figure(figsize=(12,8))
plt.hist(df[‘平均薪资’],bins=30,alpha=0.6,edgecolor=‘k’)
plt.ylabel(‘岗位数’)
plt.xlabel(‘薪资’)
plt.xticks(list(range(0,70,5)))
plt.show()

由图可知,少部分人拿高工资,月薪五千到一万岗位数量最多,月薪一万到三万的岗位不在少数

#以平均月薪10K分段比较不同城市的占比
plt.figure(figsize=(12,8))
plt.subplot(121)
temp = df[df[‘平均薪资’]<10].groupby(‘地点’)[‘平均薪资’].count()
plt.pie(temp,labels=temp.index,autopct=’%.2f%%’)
plt.title(‘薪资小于10K各城市对比’)

plt.subplot(122)
temp = df[df[‘平均薪资’]>10].groupby(‘地点’)[‘平均薪资’].count()
plt.pie(temp,labels=temp.index,autopct=’%.2f%%’)
plt.title(‘薪资大于10K各城市占比’)

由图可知,北杭上广深五城市薪资大于10K共占比高达66.03%,薪资与其它城市薪资水平差异很大,底薪岗位位于苏州,及中西部城市.

#不同学历的薪资情况
plt.figure(figsize=(14,8))
df[‘平均薪资’].groupby(df[‘学历’]).agg([‘mean’,‘median’]).plot.bar()

由图可知,是否是本科及以上对薪资影响很大,本科和硕士薪资没有多大区别,博士薪资水平远远高于其它学历

#查看学历需求情况
data = df[‘学历’].value_counts()

plt.figure(figsize=(8,8))
plt.pie(data.values,labels=data.index,autopct=’%.2f%%’)
plt.title(“各学历占比”)
plt.show()

由图可知,要求有本科学历占绝大多数,占比高达79.13%,其次是大专占比12.69%,硕士占比5.45%,而博士则是极少数

#不同经验的薪资情况
plt.figure(figsize=(12,8))
df[‘平均薪资’].groupby(df[‘工作经验’]).agg([‘mean’,‘median’]).plot.bar()

由图可知,5-10年工作经验薪资是最多的,应届生工资是比较低的,随着工作经验

#各工作经验占比情况
data = df[‘工作经验’].value_counts()

plt.figure(figsize=(8,8))
plt.pie(data.values,labels=data.index,autopct=’%.2f%%’)
plt.title(‘各工作经验占比’)
plt.show()

由图可知,3-5年工作经验需求是最多,占比36.62%,其次是1-3年占比29.66%,1-5年工作经验占比69.28%,可想而知,市场对工作经验的要求是很强烈的,有与工作经验是成功入职的关键

#不同行业的薪资情况
plt.figure(figsize=(12,8))
df[‘平均薪资’].groupby(df[‘所属行业’][:15]).agg([‘mean’,‘median’]).plot.bar()

由题可知,互联网行业平均薪资比其他行业较高,其次是电子商务,在线教育和其他服务业平均薪资较低

#各行业占比
data = df[‘所属行业’].value_counts()

plt.figure(figsize=(8,8))
plt.pie(data.values,labels=data.index,autopct=’%.2f%%’)
plt.title(‘各行业占比’)
plt.show()

由图可知,互联网行业和电子商务对数据分析岗位的需求非常大,占比达57.94%,同时薪资水平相比其他行业较高,而其他行业相对来说需求较少,薪资也低一些.

#岗位要求词云图,发现一些意义不大的字段,需要剔除
from wordcloud import WordCloud

text = df[‘详情’].dropna().to_string()
text = text.replace(‘数据分析师’,’’)
text = text.replace(‘数据分析工程’,’’)
text = text.replace(‘数据分析专员’,’’)
text = text.replace(‘数据分析’,’’)
plt.figure(figsize=(8,6))
wordcloud = WordCloud(font_path=‘simhei.ttf’,
background_color=‘white’,
min_font_size=10,
color_func=lambda *args,**kwargs:(0,0,0),
width=900,height=600).generate(text)

plt.imshow(wordcloud)
plt.axis(‘off’)

此图显示各个企业对数据分析师职业技能需求的关键字。数据挖掘,商业分析,python,数据仓库,SQL,建模,大数据是最需要的技能

总结:
通过以上分析,可以发现,如果要成功转行,应该去北上广深杭这几个城市发展,这些城市的薪资水平较高,
需求量较多,特别是互联网行业和电子商务,胜任岗位所需要的相关技能是很重要的,
工作经验对于岗位而言是非常重要的,能否成功转行的关键门槛在于是否有工作经验,也和薪资水平呈正相关,
而转行以后,只要迈过3年这个坎,才会有比较大的突破.

BOSS招聘网站数据分析岗位分析详情相关推荐

  1. Python 实战分析某招聘网站数据分析岗位的招聘情况

    前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~ 今天案例难度指数: ☆☆☆ 准备 环境使用: Anaconda (python3.9) –>识别我们写的代码 开发工具: jupyter notebo ...

  2. 某招聘网站“数据分析”相关岗位招聘信息爬取并分析

    确定目标 简单分析数据分析相关岗位的薪酬状况及技能要求: 尝试数据分析从数据获取到数据分析报告撰写的整个数据分析流程,学习爬虫.数据清洗.数据分析相关技巧. 数据获取 获取的岗位数据来源于某招聘网站, ...

  3. R分析实现对招聘网站薪资预测分析

    1.首先确定数据分析目标--薪酬受哪些因素影响 确定变量: 因变量:薪资 自变量:(定性)-- 公司类别.公司规模.地区.行业类别.学历要求.软件要求. (定量)-- 经验要求(数值型) 分析目标:建 ...

  4. python实时招聘信息与岗位分析数据可视化大屏展示(selenium+mysql+flask)

    第一部分(数据获取) 1.数据库表创建 首先通过python的sqlalchemy模块,来新建一个表. creat_tables.py(配置好自己的数据库连接和密码) from sqlalchemy ...

  5. 某Boss招聘网站的反反爬机制详解

    近日出于学习的目的对某Boss网站的反爬机制进行了分析和逆向,终于完全搞定了,记录总结下方便日后学习! 本代码请仅用于 纯技术研究的 用途,请勿用于商业用途或 非法用途,如果因使用者非法使用造成的法律 ...

  6. 大数据毕业设计 招聘网站数据分析可视化 - python flask 网络爬虫

    文章目录 0 前言 1 课题背景 2 实现效果 3 Flask框架 4 Echarts 5 爬虫 6 最后 0 前言

  7. (附源码)ssm招聘网站 毕业设计 250858

    SSM招聘网站 摘  要 招聘网站采用B/S结构.java开发语言.以及Mysql数据库等技术.系统主要分为管理员.用户.企业三部分,管理员管理主要功能包括:首页.站点管理(轮播图.公告栏)用户管理( ...

  8. 招聘网站分析-智联招聘网的爬虫设计与实现

    爬虫文件 原理 1.分析 智联招聘网是招聘网站中爬取难度最高的网站.为了减轻爬虫对网站运营的影响,要求用户必须注册登录,否则提示登录后才能进行信息检索. 智联招聘网的页面布局以及列表页请求url.注册 ...

  9. 综合项目:人工智能领域目前职位及薪资现状分析 - 基于主流招聘网站信息

    ~~~~~~~~本文基于对三大主流招聘网站收集的信息进行清洗.处理.转换的基础上,对当前人工智能领域的行业现状进行了简要分析.通过对数据的特征工程处理生成适合于机器学习算法的数据集,并利用数据集对目前 ...

  10. 数据挖掘相关岗位分析及规划

    目录 相关岗位情况 个人能力要求 具体计划实施 相关岗位情况 资料来源如下,以及一些招聘网站. 岗位详细介绍https://www.zhihu.com/question/50538518/answer ...

最新文章

  1. JDBC驱动程序的四种方式
  2. python装饰器实例-python装饰器实例大详解
  3. 找出MySQL瓶颈的基准测试和剖析
  4. DeepMind刚向星际争霸 II 的玩家们下了战书!你的对手可能是只AI,而你毫不知情...
  5. MySQL(五)汇总和分组数据
  6. 里加一列为1_9月1号新宠物食品法规实施啦,辣鸡宠物食品遭殃,你也可能违法...
  7. 备注:centos加永久路由
  8. python函数使用两个小括号
  9. ae合成设置快捷键_AE脚本使用快捷键控制关键帧操作 Keyboard v1.2.2【资源分享1449】...
  10. centos7上删除分区出现 Can't open /dev/vda1 exclusively . Mounted filesystem?
  11. 布同:基于JQuery的五子棋人机对战游戏设计与制作
  12. C语言基础——求1加到100的和
  13. 小米10周年发布会后,我路转粉了!
  14. python输入一个三位数输出它的百位十位个位_python输入一个水仙花数(三位数) 输出百位十位个位实例...
  15. 游戏建模的常用的软件和建模师的日常是什么?
  16. 你想为开源社区做贡献吗?机会来了
  17. 得到APP互联网营销分析
  18. Elasticsearch快速检索之倒排索引算法
  19. iOS 第三方登录(QQ 微信 新浪微博)
  20. 计算机组装功耗,浅谈组装电脑之电脑功耗电源额定功率的选择技巧

热门文章

  1. gitbub基本操作
  2. 基于单片机指纹考勤机仿真系统-毕设资料
  3. 数据库学习之MySQL (十一)—— 统计函数 COUNT MIN MAX AVG SUM
  4. 计算机专业大专考研考什么科目,计算机专业考研都考什么科目?
  5. PHP小白编程学习——第三方登录功能设计思维
  6. 电脑键盘部分按键失灵_笔记本键盘部分失灵怎么办,笔记本个别键失灵的处理方法...
  7. HttpClient(4.5) post get https 实例
  8. vue+node项目部署上线
  9. Java 验证身份证号码
  10. 迅影QQ视频查看v2.0 源码