作者/ 魏凯

Udacity “数据分析师”纳米学位项目学员

从去年7月份开始学习 Udacity 的“数据分析师”纳米学位课程,到现在也算学了不少内容,接下来打算慢慢开始找工作了。既然想要从事数据分析师这个岗位,那自然首先需要对这个岗位有所了解。最直接、最真实的方式就是从企业那里获得需求讯息,这样才最能够指导自己的学习方向和简历准备。本次项目即是要利用爬虫爬取拉勾网上数据分析这一岗位的信息,然后进行一些探索和分析,以数据分析来了解‘数据分析’。

数据来源

本项目所使用的数据集全部来自拉勾网,是通过集搜客这一网络爬虫工具来爬取的。集搜客是一款简洁易用且功能强大的网络爬虫产品,通过鼠标点选和简单的命令操作即可实现爬虫的定制和运行,这里也推荐一下。之所以选择拉勾网作为本项目的数据源,主要是因为相对于其他招聘网站,拉钩网上的岗位信息非常完整、整洁,极少存在信息的缺漏。并且几乎所有展现出来的信息都是非常规范化的,极大的减少了前期数据清理和数据整理的工作量。(笔者毕竟是工作之余完成,时间有限,能省则省)本次爬取信息的时候,主要获得了以下信息:

内容 字段
岗位名称 title
月薪 month_salary
公司名称 company
所属行业 industry
公司规模 scale
融资阶段 phase
投资人 investors
所在城市 city
经验要求 experience
学历要求 qualification
全职/兼职 full_or_parttime
职位描述及任职要求 description

项目目的

主要是希望通过实际的数据来解答针对数据分析岗位的一些疑惑,Udacity数据分析师课程的童鞋一些参考性的意见。具体来说,主要针对以下几个问题:

- 数据分析师岗位需求的地域性分布;

- 整个群体中薪酬分布的情况;

- 不同城市数据分析师的薪酬情况是怎样的;

- 该岗位对于工作经验的要求是怎样的;

- 根据工作经验的不同,薪酬是怎样变化的;

- 从用人单位的角度看,数据分析师应当具备哪些技能?

- 掌握不同技能是否会对薪酬有影响?影响是怎样的?

技术和工具

本项目主要分为两大部分,第一部分是数据爬取,采用的是集搜客网络爬虫工具。第二部分是数据分析,以python编程语言为基础。数据分析部分主要使用pandas作为数据整理和统计分析的工具,matplotlib用于图形的可视化,seaborn库包用于图形美化。在进行技能需求分析的时候,使用了jieba作为分词工具包,并使用wordcloud包制作词云。

数据整理

加载和清理

* 点击图片缩略图可放大,下同。

可以看到,经过初步清理后,数据集中有效变量为13个,数据记录575条。除了投资人这一项之外,其他各字段的数据完整度非常好,几乎没有缺失值。这对于后面的分析来说是个大大的好消息。

数据分析

地域性分布

<matplotlib.text.Text at 0x1102e1f90>复制代码

在拉勾网上,全国有29个城市的企业邮数据分析师的人才需求,其中将近一半需求产生在北京市,需求量全国第一。排在前5的分别是:北京、上海、深圳、杭州、广州。数据分析这一职业大量集中在北上广深四大一线城市,以及杭州这个互联网和电子商务企业的聚集地。北京市巨大的需求比重令我稍感意外,不过,考虑到拉勾网是一个偏重互联网相关行业的招聘平台,而我国大量互联网企业在北京聚集,这个结果倒也算合理。以后有时间,可以对全国互联网行业分布特点做个分析。

总而言之,可以得出一个清晰的结论:数据分析这一岗位,有大量的工作机会集中在北上广深以及杭州,期待往这个方向发展的同学还是要到这些城市去多多尝试。当然,从另一个方面说,这些城市也都集中了大量的各行业人才,竞争压力想必也是很大的。

总体薪酬情况

/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:16: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy复制代码
([<matplotlib.axis.XTick at 0x11ccaa290>,<matplotlib.axis.XTick at 0x11d478210>,<matplotlib.axis.XTick at 0x11d5652d0>,<matplotlib.axis.XTick at 0x11d602f10>,<matplotlib.axis.XTick at 0x11d6116d0>,<matplotlib.axis.XTick at 0x11d528290>,<matplotlib.axis.XTick at 0x126eb4c10>,<matplotlib.axis.XTick at 0x11d441e90>,<matplotlib.axis.XTick at 0x11d611bd0>,<matplotlib.axis.XTick at 0x11d618390>,<matplotlib.axis.XTick at 0x11d618b10>,<matplotlib.axis.XTick at 0x11d6242d0>,<matplotlib.axis.XTick at 0x11d624a50>,<matplotlib.axis.XTick at 0x11d62d210>,<matplotlib.axis.XTick at 0x11d62d990>,<matplotlib.axis.XTick at 0x11d637150>,<matplotlib.axis.XTick at 0x11d6378d0>,<matplotlib.axis.XTick at 0x11d642090>,<matplotlib.axis.XTick at 0x11d642810>],<a list of 19 Text xticklabel objects>)复制代码

如同大多数其他工作一样,数据分析师的薪酬也是一个右偏分布。大多数人的收入集中在5k-20k每月,只有少数人能够获得更高的薪酬,但有极少数人薪酬极高,让人充满期待。需要说明的是,拉勾网上的薪酬值是一个区间值,并且相互之间互有重叠,为了便于分析,我取区间的中值作为代表值进行的分析。因此,实际的薪酬分布情况可能会比图中的情况更好一些。总是有人能够拿到薪酬的上限。综合来看,数据分析师的薪酬收入整体还是可观的,从这方面说,选择这个职业还是不错的。

不同城市薪酬分布情况


<matplotlib.text.Text at 0x115796650>

忽略掉那些人才需求量比较小的城市,我重点关注排名前六的城市。从图上看,这六大城市的薪酬分布情况总体来说都比较集中,这和我们前面看到的全国的薪酬总体情况分布是一致的。深圳市薪酬分布中位数大约在15k,居全国首位。其次是北京,约12.5k,之后是上海和杭州。深圳确实是个创造奇迹的城市,在这里也给了我一个小小的惊喜。从待遇上看,数据分析师留在深圳发展是个不错的选择。


工作经验需求

/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:7: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
/Users/carrey/anaconda/lib/python2.7/site-packages/pandas/core/indexing.py:132: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copyself._setitem_with_indexer(indexer, value)
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:13: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:25: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)复制代码

<matplotlib.text.Text at 0x110577dd0>

不出所料的,工作经验的需求分布近似于正态分布。工作1-3年经验的熟手需求量最大,其次是3-5年工作经验的资深分析师。工作经验不足1年的新人,市场需求量比较少。另外,工作经验要5-10年的需求量非常稀少,而10年以上的更是凤毛麟角。

从这个分布我们大致可以猜测出:

数据分析是个年轻的职业方向,大量的工作经验需求集中在1-3年;对于数据分析师来说,5年是个瓶颈期,如果在5年之内没有转型或者质的提升,大概以后的竞争压力会比较大。

不同工作经验的薪酬分布

<matplotlib.text.Text at 0x11cc58f50>

毫无疑问的,随着经验的提升,数据分析师的薪酬也在不断提高。另外,从现有数据来看,数据分析师似乎是个常青的职业方向,在10年内大概不会因为年龄的增长导致收入下降。

职业技能关键词

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/p7/6s6n_sw53dq_w9j52wlzyl800000gn/T/jieba.cache
Loading model cost 0.417 seconds.
Prefix dict has been built succesfully.
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:7: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy复制代码

词云显示出的情况,有点超出了我的预料。对于数据分析师这一岗位,企业需求频率最高的技能并不是Python语言和R语言等如今非常时髦的数据分析语言,而是传统的结构化查询语言SQL和表格神器Excel。这一点需要各位小伙伴注意,要想从事数据分析师岗位,SQL和Excel看起来是必备技能。 从词云上看出,数据分析师技能需求频率排在前列的有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等。另外,Java, PPT, BI软件等属于第二梯队。

掌握不同技能对薪酬收入的影响

/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:13: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy复制代码

<matplotlib.text.Text at 0x11f59b890>

我对需求频率最高的前15个技能进行统计计算,得出每一个技能对应的平均薪酬水平,如上图。点的大小代表该技能需求量的多少。

在前15项技能中,shell,Hive, Spark这三者的平均薪酬水平最高,并且相对其他技能来说有比较大的差异。对数据分析师工作有所了解的人应该都知道,这三个工具中,Hive和Spark都是应用于分布式数据处理,而shell脚本则是Linux系统下工作的必须技能。这三者共同指向了一个方向,那就是海量数据的分布式处理!

所以,想要拿高薪的小伙伴注意了,海量数据处理、分布式处理框架是走向高薪的正确方向。 另外值得注意的是,在数据分析领域,Python语言的平均薪酬水平要高于目前如日中天的Java语言。而SQL语言和传统的SAS,SPSS两大数据分析软件,则能够让你在保证中等收入的条件下,能够适应更多企业的要求,也就意味着更多的工作机会。

分析结论

通过上面的分析,我们可以得到的结论有这些: 数据分析这一岗位,有大量的工作机会集中在北上广深以及杭州。 大多数据分析师的收入集中在5k-20k每月,只有少数人能够获得更高的薪酬,但有极少数人薪酬极高,让人充满期待。

从待遇上看,数据分析师留在深圳发展是个不错的选择,其次是北京、上海。 数据分析是个年轻的职业方向,大量的工作经验需求集中在1-3年。

对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有转型或者质的提升,大概以后的竞争压力会比较大。 随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。

数据分析师需求频率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel简直可以说是必备技能。 海量数据、分布式处理框架是走向高薪的正确方向。 SQL语言和传统的SAS,SPSS两大数据分析软件,能够让你在保证中等收入的条件下,能够适应更多企业的要求,也就意味着更多的工作机会。

思考和总结

对于数据分析师技能的分析是比较简陋的,在本次分析过程中,仅针对工具型的技能进行了分析。但其实,数据分析师所需要具备的素质远不止这些,还需要有扎实的数学、统计学基础,良好的数据敏感度,开拓但严谨的思维等。如果要对这些内容进行深入挖掘的话,应该会更加有趣。不过,要进行这项内容的话,需要掌握大量中文分词、关键字提取等方面的知识和技能,难度也会更高。时间所限,在这里不再进一步展开了,希望以后有时间再做一个专项分析吧。 让人忍不住吐槽的是,Python2.X环境对中文编码的支持着实不够好,在处理数据的时候消耗了大量的时间和精力,也犯了不少错,走了很多弯路。以后这一块的内容要找时间专门攻坚一下,也可以考虑换到python3平台去。

特别说明:本次数据源完全来自拉勾网,但拉勾网本身是专注于互联网相关行业的招聘平台,所以本次分析出的结论更加适用于互联网行业的相关企业,对于其他行业的企业,未必合适。

数据分析师挣多少钱?“黑”了招聘网站告诉你!相关推荐

  1. 转行数据分析师一定需要考证吗?1分钟告诉你答案

    对于很多想要转行的小伙伴而言,转行第一步想到的就是考证,那么数据分析行业呢?一样也需要数据分析师证书吧,从而有了自内心深处的灵魂拷问"数据分析师需要考证吗?" 什么是数据分析师? ...

  2. 数据分析师岗位薪资多少?一张图告诉你答案

    你知道吗?当你从小白成为一名数据分析人才会有多值钱? 在大数据高速发展的同时,它的岗位需求开始迅速扩张,为大家提供了大量的职业发展通道.于是,很多同学都希望加入数据之路,想在数据之路上更上一层楼. 据 ...

  3. 普通主播一个月能挣多少钱?结合身边的案例告诉你主播真实的收入!

    随着最近几年众多网络直播平台涌现,造就了网络直播行业的火爆,很多年轻男女加入网络直播行业,一些大的网络视频直播平台如斗鱼.映客凭借着用户流量优势成功将许多普通人打造了网络红主播,比如我们所熟知的斗鱼的 ...

  4. 如何拿到高薪数据分析师offer?从精准解读一篇招聘信息开始!

    大家好,我是大鹏,目前是一名数据分析师,从非本专业成功转行,创立"数据团学社""城市数据研习社",运营数十万人社群,联合发起"城市数据团". ...

  5. 拉勾网数据分析师职位分析

    项目背景: 2018年11月份开始学习数据分析相关课程,目前学到不少知识,准备开始找工作.在这之前想自己做一个实战,一是能够证明自己确实做了准备,初步具备数据分析师岗位的能力,二是通过实战复习自己所学 ...

  6. python数据分析年薪百万_如何成为一个年薪 50 万以上的数据分析师?

    年薪50万?先结合身边数据分析朋友如何做到年薪百万的来谈一谈: 最近,年薪百万似乎成了一个人职业生涯中绕不开的话题.问答类社交网站.自媒体上都不乏讨论这个话题的内容,如:什么样的人在年薪百万的范围内, ...

  7. 数据分析师对年龄有限制吗?现在转行还来得及吗?

    CDA数据分析师原创作品,转载需授权 2014年,"大数据" 成为国内年度热词,并首次出现在当年的<政府工作报告中>,同年,同卵双胞胎的数据分析也成为朝阳行业,数据分析 ...

  8. 裁员潮此起彼伏,转行数据分析师仍旧可期

    2018年全球经济下滑,证券市场更是杯盘狼藉,美国经济的不景气迅速散播到全球各个国家.地区.早前一度火热的互联网行业也开始步入裁员时期,一波裁员潮悄无声息地就进入到我们每个公民的视野--前后相继爆出了 ...

  9. 学python能挣多少钱_学习Python能挣多少钱?什么人适合学习Python?

    学习Python能挣多少钱?什么人适合学习Python? 发布时间:2020-06-14 06:29:44 来源:51CTO 阅读:135 作者:老男孩IT 说起Python这门编程语言,发展前景好. ...

最新文章

  1. Thread-方法以及wait、notify简介
  2. 计算机内存不足提示栻框,【计算机】计算机文化基础.ppt
  3. kaggle的kernel-only比赛中出现Your Notebook cannot use internet access in this competition解决方案
  4. vue数据改变了,视图不更新不刷新问题
  5. 启动chrome_Chrome开启多线程下载的方法
  6. python unicode编码转换中文_Python入门高级教程--Python 中文编码
  7. phpexcel 导出phpqrcode生成的二维码和多sheet
  8. 【二级等保】二级等保怎么做?价格怎么样?贵吗?
  9. APICloud AVM框架列表组件list-view的使用、flex布局教程
  10. Android程序的入口
  11. ios是什么,ios是什么意思
  12. 看懂需要勇气,33张人性图!
  13. 微信服务器在哪里修改密码,微信修改密码在哪里 微信在哪里改密码
  14. 一篇文章带你理解套接字Socket的各个接口
  15. JDK1.6“新“特性Instrumentation之JavaAgent
  16. 在线考试系统设计时必须考虑的问题之三----------考试题库问题
  17. Android中自带的list布局
  18. spring-retry简单用法
  19. 分享:Vue.js新手入门指南-0518-v1.0张雅慧(续)
  20. js 验证身份证号码正确性

热门文章

  1. java·mysql编写快递e站
  2. 保宁资本智慧模式:数字时代
  3. 不好意思,问一个比较菜的问题,请问高手,Blogs与FAQ有没有区别?
  4. 风机独立变桨控制个人读书笔记
  5. 82-《大厂高薪必备技能实战1期》14-百亿短视频系统实战-剪辑_ev 没用
  6. 酷睿i7cpu适合的linux,i7 8700用什么主板好?intel酷睿i7-8700适合的主板搭配攻略
  7. 【工业物联网】2018工业物联网产业发展及投资价值榜单
  8. 吃鸡中的linux是什么东西,你还,请教一下* .* 在linux命令中是什么意思?
  9. STM32F103 硬件SPI驱动外部FLASH W25X16
  10. linux安装git指定版本