简介:试着,做了一个拉勾网数据分析师职位的数据分析。
其实,虽然很想做数据分析师,但是是跨行,心里相当忐忑,做这个分析就相当于加深自己对数据分析这个行业的了解了。

大致思路

起始

数据来源

本来是想自己写个爬虫的,可是学了好久,还是不能融会贯通,总会出一些bug,只能继续学习,争取早日修成爬神功。又想着,总不能还没开始,就结束了这次实验。最后无意中发现了一个爬虫工具--八爪鱼、、只需要点点点(其实,当时有种挫败感)。不过,总算数据总算有了。

过程

数据的清洗与处理

这里试着用了两种工具,Excel + Python,也比较了一下二者的优点。与前人所述基本一致,纸上得来终觉浅啊。

想说一下字段的命名,如果用了Python进行处理的话,最好还是把字段命名为英文,或者说字母。可以简化后期处理,会方便很多。

当然,你如果全用Excel是用中文命名,也是没有问题的。

Excel的处理过程

预防万一

所谓预防万一,就是将Excel另存一份源数据,以免后期发生不可预知错误。

清洗与处理

命名字段

处理salary列

新建工作表,将salary字段复制过来。

  1. 清除所有格式。
  2. 数据-分列-固定符号-"-"
  3. 查找替换 k。这里说明下,清除格式后,无论查找大写K还是小写k,均可。
  4. 因为抓取的数据是一组区间值,无法直接使用,因此取薪资的中间值也就是平均值。使用函数 'MEDIAN' ,它会返回一组数的中值,或者使用 'AVERAGE' 也可。得到的值如下:
  5. 再对这组值进行数据分析,数据-数据分析-描述统计,得到最大值,最小值,全距,再根据公式计算组数,组距,进行数据分组,再根据 ' FREQUENCY '函数计算每组频率。

接下来,就可以绘制图表了。

ps:或者直接在第5步,采用数据分析工具中的直方图,进行分析。

处理experience、city、education、property、scale列

新建工作表,复制。

  1. 清除所有格式。
  2. 使用函数 'SUBSTITUTE' 替换所有 "/",或者直接查找替换。
  3. 数据透视表统计,绘图。

处理field列

新建工作表,复制。

  1. 清除所有格式
  2. 查找替换"、",","为半角“,”。
  3. 分列。

这样,基本就处理完了。

数据展示

行业及职位数量

从图中可以看出,17个行业中,移动互联网对数据人才的需求量是最大的,其次是金融和电子商务,而生物服务、文化娱乐、旅游、分类信息、硬件等的需求量最少。我认为,这从一个侧面反映了移动互联网数据量的巨大,以及对人才的渴求。

城市与职位

首先看一下,职位主要分布的区域:

从图中可以看到,招聘公司主要位于南方。

再看一下,城市与职位:

这里主要截取了前10个城市,毫无意外,北上广赫然在列,杭州也很多,排在广州前面。看来,我们这些想做数据分析师的人,都无法逃离北上广啊。嗯,你也可以去杭州,据在那儿生活了七八年的同学来说,他不想走了。

行业、城市与薪资

前面数据处理得到了每个职位的平均薪资,这里进一步处理得到了每个行业在每个城市的平均薪资。下图是招聘最多的几个行业在每个城市的平均薪资。

从图中可以知道,整体上相对来说,广州在这些行业中属于较低的。北京、上海差距不是太大。

招聘公司融资阶段

招聘不同职称的数量

这里借助python进行了统计:

pythonimport pandas as pd
data = pd.DataFrame(pd.read_csv(r'C:\Users\sunshine\Desktop\2017.8.20.csv',encoding = 'gbk'))data.columns
positionName = []
for i in range(len(data.position)):if "实习" in data.position[i]:positionName.append("实习")elif "助理" in data.position[i]:positionName.append("助理")elif "专员" in data.position[i]:positionName.append("专员")elif "主管" in data.position[i]:positionName.append("主管")elif "经理" in data.position[i]:positionName.append("经理")elif "工程师" in data.position[i]:positionName.append("工程师")elif "总监" in data.position[i]:positionName.append("总监")elif "科学家" in data.position[i]:positionName.append("科学家")elif "架构" in data.position[i]:positionName.append("架构师")else:positionName.append("其他")data["positionName1"] = positionNamedata["positionName1"].value_counts()

这里没有用matplotlib画,借用了echarts。

招聘公司对个人能力的要求

招聘公司对应聘者的学历要求

从图中我们很明显可以得到,公司对应聘者的学历要求,本科以上占了绝大部分,这说明,90%以上的公司对应聘者的学历要求很高,我认为,这可能有以下原因:

  1. 分析行业对应聘者的知识水平要求还是很高的,因为数据分析师不但要涉及很多高等数学,统计学,概率论,线性代数等数学知识,还要涉及很多行业知识。
  2. 这个行业需要应对很多日新月异的信息,各种东西更新迭代非常快,因此对应聘者的自学能力提出了很高的要求。

招聘公司对应聘者经验的要求

大部分公司招的都是1-5年的,1年之下和经验不限的很少,所以说,实习经验很重要,没有实习经历,太难入行了。我泪奔。公司需要的都是老鸟啊。

招聘公司对应聘者工具掌握的要求

这里使用了python进行了正则匹配,和词云生成。

pythonimport re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import jieba as jb
from wordcloud import WordCloud#转换数据格式
word_str = ''.join(data['description'])
#对文本进行分词
word_split = jb.cut(word_str)
#使用|分割结果并转换格式
word_split1 = "| ".join(word_split)
#设置要匹配的关键词
pattern=re.compile('sql|mysql|posgresql|python|excel|spss|matlab|ppt|powerpoint|sas|[\br\b]|hadoop|spark|hive|ga|java|perl|tableau|eviews|presto')
#匹配所有文本字符
word_w=pattern.findall(word_split1)word_s = str(word_w)my_wordcloud = WordCloud().generate(word_s)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

有点丑...

因此,换了个工具.....

好看点了,无论哪张图都说明,除了excel,如果,你懂R或者python,再加上SQL,和spss,喔,你是个香饽饽。

招聘公司对应聘者技能的要求

可以看到,公司对应聘者的要求大部分在数据分析能力和产品、业务等方面。看来,数据分析师最重要的还是懂业务,这也是我想发展的方向。至于数据挖掘方向,对数学功底要求太高了,毕竟我不是科班出身。但是,我觉得平时在实验室做的实验,其实和业务是一个道理。只不过,是将实验换成了产品。

总结

对于数据分析岗,招聘公司主要位于南方,但是以北京公司最多。不需要融资,B轮和上市公司对于该岗位的需求较大。并且主要是移动互联网行业的公司。企业对于应聘者的工具掌握多是Excel,Spss,Python,R,SQl等,如果你全会,那基本就是个香饽饽。在技能方面,企业比较看重数据分析,以及对业务、运营的理解。而对于应聘者而言,本科生学历完全足够了。就薪资而言,广州多有行业较其他城市偏低,北京和上海在同等工作经历下,薪资要领先于其他城市。

数据分析报告地址:https://me.bdp.cn/api/su/SBEGK7Z8

转载于:https://www.cnblogs.com/sunshinewang/p/7403271.html

拉勾数据分析岗数据分析报告相关推荐

  1. 拉勾教育-求职技巧总结

    求职技巧 文章目录 求职技巧 把握投递简历的黄金时间段 读懂职位 JD,精准投递简历 做好充分的准备去面试 电话沟通 如何全面的介绍自己 内容 关键 工作离职原因 职业规划 工作中更看重的是什么 还有 ...

  2. 拉勾启源老师mysql讲义,【拉勾教育数据分析实战训练营】--Tableau学习笔记-重点回顾1...

    [拉勾教育数据分析实战训练营]--Tableau学习笔记-重点回顾1 [拉勾教育数据分析实战训练营]--Tableau学习笔记-重点回顾1 以下是我搜罗的一些官方优秀case分享: 1.https:/ ...

  3. 数据分析知识——统计学学习笔记(拉勾数据分析训练营)

    模块1 统计学基本概念 1 测量尺度 人文社科中的分类尺度 1定类尺度 功能:分类作用,比如性别.英文:Norminal 2定序尺度 功能:分类.排序作用,比如喜欢的艺人.年级.英文:Ordinal ...

  4. python数据分析岗位_python拉勾数据职位分析

    简介:试着,做了一个拉勾网数据分析师职位的数据分析. 其实,虽然很想做数据分析师,但是是跨行,心里相当忐忑,做这个分析就相当于加深自己对数据分析这个行业的了解了. 思路 大致思路 起始 数据来源 本来 ...

  5. python数据分析职位_python代写拉勾数据职位分析

    简介:试着,做了一个拉勾网数据分析师职位的数据分析. 其实,虽然很想做数据分析师,但是是跨行,心里相当忐忑,做这个分析就相当于加深自己对数据分析这个行业的了解了. 思路 大致思路 起始 数据来源 本来 ...

  6. 基于python爬虫的岗位数据分析以拉勾网为例_Python拉勾爬虫——以深圳地区数据分析师为例...

    拉勾因其结构化的数据比较多因此过去常常被爬,所以在其多次改版之下变得难爬.不过只要清楚它的原理,依然比较好爬.其机制主要就是AJAX异步加载JSON数据,所以至少在搜索页面里翻页url不会变化,而且数 ...

  7. 我在滴滴数据分析岗实习8个月的收获(文末附内推机会)

         作者:海潮      来源:数据管道 大家好,我是宝器! 今天分享一下交流群里海潮兄弟的「数据分析岗」求职与工作经验,以下是海潮兄弟的自诉,全文共4825字,6图,阅读大概需要15分钟. 作 ...

  8. 拉勾发布互联网社畜输入法报告:市场人每日打字7300个

    7月31日消息,拉勾联合搜狗输入法发布<互联网社畜研究报告>,数据显示,北京互联网社畜平均每天打字约8000个,稳居城市榜首.从岗位看,市场人每日打字数量7300个,是技术岗的4.3倍. ...

  9. 蓬莱小课:数据分析岗真实面经分享

    今天分享的是数据分析岗的面经供大家参考! 面试总结 1.岗位所需能力 通过以上面经,我们总结出了招商银行外包数据分析岗所需要具备的能力,即基础数据分析工具的使用,能熟练掌握各类数据分析模型,团队协作能 ...

  10. 大数据:从阿里数据分析岗看未来核心竞争力(六)

    总结一下阿里数据分析岗的要求: 3年以上数据分析或数据产品相关工作经验 数据分析.挖掘.清洗和建模的经验 独立编写商业数据分析报告 掌握Python, R, Matlab.hive.SQL.SAS/S ...

最新文章

  1. 疯狂ios之疯狂打飞机游戏(3)
  2. java的static块执行时机
  3. 在linux中安装.sh 文件
  4. SAP ABAP系统更改主机名
  5. SAP ui5 单元测试框架 - OPA
  6. 计算机辅助翻译专业院校,2017年北大计算机辅助翻译考研经验分享
  7. VB 窗体实现文件拖拽获取路径方法
  8. Guice依赖注入(接口多实现)
  9. JS+MySQL获取 京东 省市区 地区
  10. 把脉大连接:“多端协同”的大动脉与“多人协作”的主动脉
  11. NIT考试感想与复习unity基础
  12. java递归获取所有的子级节点
  13. DELPHI Webbrowser 响应回车键(EWB响应正常,无需额外代码)
  14. ak sk认证java demo_AK-SK鉴权
  15. C语言 if语句详解
  16. 定义一个数组存储10个上面描述的小怪兽,每个小怪兽的名字为(小怪兽+数组下标)
  17. 取消关闭计算机怎么弄,win7自动关机命令怎么设置和取消
  18. Oracle学习之建表
  19. 迭代二感想总结 - 赵雷彧
  20. VS2008Pro下载地址

热门文章

  1. 【转】java关键字final ,抽象类、接口介绍
  2. javascript getComputedStyle,getPropertyValue,CurrentStyle说明
  3. js中eval的用法
  4. js怎样递归遍历树形菜单数据
  5. JSP中的坑(一):一个空格都不能少
  6. 精进 Quartz—Quartz大致介绍(一)
  7. 在.Net中读写config文件的各种方法
  8. QA:mongoose中设置virtual后不工作问题
  9. C++ main函数的几点细节(转载)
  10. 每天一道剑指offer-旋转数组的最小数字