导读

经常看见各种数据分析师培训的运营推荐,那么数据分析师的就业行情究竟如何?让我们用数据说话,一探究竟!

01 数据来源

各大招聘网站提供的数据很多,简单写一个小爬虫就能轻松获得大量数据。虽然这些数据的真实性不能完全保证,但至少有一定的参考价值。

本文所用数据来源于Boss直聘,城市定位"杭州",搜索标签选择"数据分析师"。爬虫实现本身并不复杂,只是直聘网的cookie更新比较快,不过好在爬取数量也不大,所以也还可以应对。网站默认仅显示10页搜索结果,每页30条,共抓取299条,且经检验无重复记录。

注:联系号主可获取爬虫源码文件。另外,本文所有数据分析工作和图表创建均应用pandas和matplotlib完成,两幅词云图片应用wordcloud库制作。

02 数据清洗

由于数据爬取时较为随意,所以数据清洗的难度就自然比较大。首先来看下爬取得到的原始数据记录:

5条原始数据记录

去除id字段和url字段后,了解各字段的基本统计信息:

可以发现:

  • 299条招聘记录涵盖了201家招聘单位、主要分布于9个地理区划

  • 招聘岗位名称多达67种(可见数据分析师岗命名之混乱程度),指明"数据分析师"的有181条记录

  • 发布招聘记录最多的单位是蚂蚁金服,有7条(经模糊匹配,网易相关的有9条记录)

  • 教育相关信息中,具有3-5年工作经验、本科学历的记录数最多,有126条

  • 薪资在15-30K的记录最多,有24条

由于原始数据中各字段均为字符串类型,且有很多不够规范之处,所以需要进行数据清洗。主要清晰流程及代码包括:

  • 去除无用字段:id和url

1df.drop(['id', 'url'],axis=1, inplace = True)
  • 浏览数据发现有4条是招聘实习数据分析师,记录格式与其他相差较大(尤其是教育和薪资字段),且不是本文分析主体,直接过滤掉

1df = df.loc[~df['salary'].str.contains('天'),:]

这是通过筛选记录构建新的dataframe的思路,也可以继续用drop函数实现:

1df.drop(df[df['salary'].str.contains('天')].index, inplace = True)
  • 根据薪资字段提取薪水信息,包括提取薪资下限、薪资上限、每年开薪月数,并根据薪资下限和薪资上限构建"平均"薪资:avg = min + 0.25*(max - min),后续分析薪资与其他因素关系时均应用平均薪资数据。

1df['salLow']=df['salary'].str.findall('(\d+)-\d+').str[0].astype('int')
2df['salHigh']=df['salary'].str.findall('\d+-(\d+)').str[0].astype('int')
3df['salAvg'] = df['salLow']+0.25*(df['salHigh']-df['salLow'])
4df['salNum']=df['salary'].str.findall('(\d+)薪').str[0]
5df.drop(['salary'], axis=1, inplace=True)
  • 根据教育字段,提取经验要求和学历要求,其中原始数据中教育字段由经验和学历直接拼接而成,不存在任何直接可用分隔符

1#以经验要求中的最小年份要求作为经验数据
2df['exp'] = df['education'].str.findall('(\d+)-\d+年').str[0]
3df['exp'].fillna(value = '0', inplace = True)
4#初始化为"未知",包括某种学历时就赋值为该学历字段
5df['edu'] = '未知'
6edus = ['高中', '大专', '本科', '硕士', '博士']
7for e in edus:
8    df.loc[df['education'].str.contains(e), 'edu'] = e
  • 根据公司类型字段提取企业融资情况和企业人数规模

1#提取融资类型,主要包括信息情况用列表表示
2types = ['已上市', '未融资', '不需要融资', 'A轮', 'B轮', 'C轮', 'D轮', '天使轮']
3df['finance'] = '未知'
4for t in types:
5    df.loc[df['com_type'].str.contains(t), 'finance'] = t
6#以公司类型中人数区间上限作为公司规模信息
7df['com_size'] = df['com_type'].str.findall('(\d+人)').str[0]

处理后,得到的数据就基本可用于后续分析。

5条处理后数据记录

初步看几个大厂的数据分析师相关招聘数据:

蚂蚁金服、阿里巴巴、华为

网易、海康威视、有赞

03 企业和目标应聘者画像

  • 首先给出招聘数据分析师企业画像:

除了未明确区划(标识杭州),西湖和滨江企业最多

融资企业数量并不多

还是大厂招聘需求量较大

  • 了解了企业基本情况,再来看看企业对应聘者的目标画像:

薪资整体较为分散:既有60K的高薪岗,也不乏5K的低薪岗位

薪资月数直接关系年终奖多少

本科学历足以满足绝大部分数据分析师岗位要求

要求经验不限和要求经验在5年以上的招聘记录数量相当,不到40条

具有3年相关经验的数据分析师需求量最大

数据挖掘是数据分析师的最大技能标签

SQL、Python、Hive3大数据分析工具也是基本要求

通过这些基本统计,可以基本刻画数据分析师是这样一群人:普遍要求具备本科学历,3年左右工作经验,最擅长的技能是数据挖掘,使用最频繁的工具是SQL、Python和Hive,主要工作在西湖、滨江等区划,拿着整体较高的薪水。

04 影响数据分析师价值的因素

数据分析师的价值在于从数据中挖掘有效信息,精准反馈和有效决策业务指标和企业发展方向。那么,能最直接体现数据分析师价值的是什么呢?当然是其薪资水平了。

所以接下来,我们再用一组图表来刻画哪些因素最为影响数据分析师的价值(薪水)。

  • 企业对数据分析师薪资影响

融资等级越高给出的薪资水平越高

大厂的高薪不是盖的

任凭西湖和滨江企业多,但余杭才是高薪区域

  • 应聘者自身条件对薪资影响

高学历真的意味着高薪水

丰富的经验也意味着丰厚的报酬

分布式技术、Spark、Hive、Hadoop:大数据平台才是数据分析师的未来?

05 公司福利

最后,对招聘记录中的公司介绍进行词云展示:

虽然福利待遇标签很多,但我还是第一眼看到了年终奖、带薪休假,细看之下又发现了比较隐蔽的股票期权……

06 总结

本文对boss直聘平台近300条杭州数据分析师招聘信息进行了分析,通过分析发现:

  • 数据分析师招聘数量相对较大,无论是大厂还是小厂、也无论是否上市或者融资,都或多或少有数据分析师需求

  • 杭州数据分析师招聘企业以西湖和滨江最多,但余杭的企业平均薪资可能更高

  • 数据分析师对学历、经验没有特殊要求

  • 但对综合技能要求较为全面,尤其是对数据挖掘能力最为普遍,但大数据平台相关技术往往意味着更高的薪水

  • 本文仅仅是对平台数据的简单分析……

相关阅读:

  • 一文解决所有MySQL分类排名问题

  • MySQL模糊搜索的几种姿势

  • 关于python中bool类型,你需要知道这些细节…

  • 一文弄懂Python上下文管理器和with用法

  • 一份关于PEP的入门指南

  • 5分钟速览python正则表达式常用函数

  • 多种爬虫方式对比

  • 用pyquery5行代码爬取百度热点新闻

  • 生成词云的几种方式

听说数据分析师挺火,我们来数据分析一下相关推荐

  1. (秦路)七周成为数据分析师(第一周)—— 数据分析思维

    文章目录 1. 什么是数据分析 2.应该怎么学 3. 数据分析思维 3.1 三种核心思维 3.1.1 结构化 3.1.2 公式化 3.1.3 业务化 3.2 数据分析的思维技巧 3.3 数据分析思维九 ...

  2. 数据分析师必须掌握的常见数据分析方法

    通过数据分析结果,能够为企业的发展以及产业优化提供极大的数据支撑以及理论依据.越来越多的企业认识到数据分析的重要作用,逐渐打开数据分析师的招聘市场.那作为数据分析师应该掌握哪些常见的数据分析方法呢? ...

  3. 数据分析师必须掌握的 十三大数据分析方法论!

    数据分析方法论 花了一个星期写的此文章,点个赞给杯咖啡吧! 文章目录 数据分析方法论 1. 公式法拆解法 2. 象限法 2.1 象限法的优势 3. 二八法 / 帕累托分析 4. 漏斗法 5. 逻辑树分 ...

  4. python生物数据分析师职业技能_数据分析师需要什么技能,数据分析行业都有什么职业?...

    就目前而言,很多人看到了数据分析行业的光明前景,于是就想进入数据分析的行业中,但是,想成为一名合格的数据分析师,需要掌握很多的技能,那么一名合格的数据分析师需要掌握哪些技能呢?现在的数据分析行业中有数 ...

  5. python金融大数据分析师工资待遇_国内数据分析待遇如何?

    本文用数据分析的方法告诉你,数据分析师在不同阶段分别是值多少钱! 项目简介 自学数据分析的相关技能有一段时间,到现在也算学到不少内容,接下来打算慢慢找工作.在这之前打算将之前学的东西,练习一遍,慢慢增 ...

  6. 数据分析师三个等级_数据分析课|这三个等级的数据分析师报考条件,一定是你需要的...

    [摘要]在茫茫的数据发展长河中,人们慢慢掌握了数据处理的方法,其中重要的处理方法之一就是对数据的分析,所以出现了数据分析师这一处理数据的职业,有很多刚入职成为数据分析师的新人都想知道数据分析师报考条件 ...

  7. 【数据分析师】000-如何学习数据分析

    如何学习数据分析 一.B站 蜡蜡Joanna 的经验 1 数据分析的概念 2 数据分析师的学习路线 2.1 理论基础:(统计学.概率学知识) 2.1.1 统计学: 2.1.2 概率论 : 2.2 技能 ...

  8. python数据分析培训内容可以_Python数据分析师

    阶段一 学完后能达到什么水平? 数据分析师认知篇 说 明:0基础入学,5大进阶之路,8大课程阶段,35+课程,1000+学时, 18大行业经典案例,两大商业项目实战!人工智能是你的终极目标! 课程时长 ...

  9. 3个月转行数据分析师,你需要掌握这些内容

    数据分析师是什么?数据分析师是专门从事行业数据搜集.整理.分析,并依据数据做出行业研究.评估和预测的专业人员.再直白一点解释,就是需要能够灵活运用数据分析工具的能力以及丰富的项目经验.我个人认为最基本 ...

最新文章

  1. 【工作秘籍】Facebook内部高效工作大揭秘
  2. C# Tips 2------ToolStripSplitButton's 'Checked' property
  3. Docker文件系统实战
  4. Mybatis的@Param注解作用
  5. mysql行复制_MySQL复制(一)--复制概述
  6. Codeforces Round #149 (Div. 2)【AK】
  7. 吴恩达机器学习笔记十四之大规模机器学习
  8. JQuery控制div外点击隐藏,div内点击不会隐藏
  9. Windows用户最佳远程控制器——Xmanager
  10. 广州天河租房随笔记录
  11. sql server 无法为该请求检索数据
  12. 计算机中模板与母版的区别,PPT模版与母版的作用和区别,看完才知道这么多年弄混了!...
  13. sam格式的结构和意义_NGS数据格式02-SAM/BAM最详细解读
  14. EasyExcel生成带下拉列表或二级级联列表的Excel模版+自定义校验导入数据(附仓库)
  15. 华硕主板固态硬盘不识别_华硕主板认不到固态硬盘怎么办?
  16. Android-图像识别项目OpenCV(2):运行官方例子中的脸部识别程序
  17. 用千千静听练听力的小工具:Mp3字慕助手(带下载慢速Voa)
  18. 打造爆款时怎么做淘宝付费推广?
  19. vue2和vue3的参数接受方式以及vue中url参数解码
  20. java构建n阶魔方方阵

热门文章

  1. 一文学会VOS3000对接网关指定走某个落地网关
  2. elementui组件—— el-scroll的使用
  3. Python3+pygame实现的90坦克大战
  4. 【每日刷题】复数乘法
  5. 惠普计划裁员16%:未来3年计划裁撤7000-9000个岗位
  6. Kettle5.4统计各部门工资总额
  7. 【mysql】查询某一年 某一月 某一天的数据
  8. ubuntu如何查看网卡名称_修改Ubuntu网卡名称
  9. Stripes视图框架实现ActionBean视图访问
  10. Codeforces Round #827 (Div. 4)-C. Stripes