背景:现用Python爬取了某求职网站上关于数据分析的数据,我希望知道数据分析是个怎样的职位?它的工资和薪酬是多少?它有哪些特点,需要掌握哪些能力?哪些公司会招聘这样一个岗位?

1、数据有无缺失值?
数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓去,例如本身的缺失,该岗位的HR没有填写。

如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。

2、数据是否一致化?
一致化指的是数据是否有统一的标准或命名。

3、数据是否有脏数据
脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。

使用Excel的删除重复项功能,快速定位是否有重复数据。

4、数据标准结构
数据标准结构,就是将特殊结构的数据进行转换和规整。

表格中,companyLableList就是以数组形式保存(JSON中的数组),我们后续得将这类格式拆分开来
![这里写图片描述](//img-
blog.csdn.net/20180322144840149?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

薪水用了几K表示,这是文本,并不能直接用于计算。而且是一个范围,后续得按照最高薪水和最低薪水拆成两列。
![这里写图片描述](//img-
blog.csdn.net/20180322144944697?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

数据清洗

1、将salary拆成最高薪水和最低薪水有二种办法。

一是直接分列,以”-“为拆分符,得到两列数据,然后利用替换功能删除 k这个字符串,得到结果。

二是利用文本查找的思想,重点讲一下这个。先用 =FIND(“k”,O2,1)。查找第一个K(最低薪酬)出现的位置。

这里FIND函数对大小写敏感,数据中的k是小写。

两列分别命名为bottomSalary和topSalary,下面找出bottomSalary:
![这里写图片描述](//img-
blog.csdn.net/20180322145454944?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

输入=LEFT(O2,FIND(“k”,O2,1))得到的结果就是 7K,要去除掉k,FIND(“k”,O2,1)再减去1即可。

最高薪水也是同样的思路,但不能使用第一个K的位置,因为第二个薪水位置不固定。需要利用find查找”-“位置,然后截取 从”-” 到最后第二个位置的字符串。

=MID(O2,FIND(“-“,O2,1)+1,LEN(O2)-FIND(“-“,O2,1)-1)
![这里写图片描述](//img-
blog.csdn.net/20180322150057175?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

上面的公式输入成功后,要想对每一行都套用,可以利用单元格的右下角,向下拖拽即可。

因为薪水是一个范围,我们不可能拿范围计算平均工资。那怎么办呢?我们只能取最高薪水和最低薪水的平均数作为该岗位薪资。这是数据来源的缺陷,因为我们并不能知道应聘者实际能拿多少。这是薪水计算的误差。
![这里写图片描述](//img-
blog.csdn.net/20180322152030739?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

因为R2,S2为文本,所以要写成R2*1,把它转换成数值。

文本格式里输入数字,显示仍然会是数字,只是对齐方式不一样:

文本格式靠左对齐,数字格式靠右对齐.

还有就是用函数计算的时候不同:文本格式不参与函数里数值的计算,

另一个误差就是 工资范围写成6k以上,我们取最高薪水和最低薪水相等。

2、companyLabelList 分列
companyLabelList是公司标签,诸如技能培训啊、五险一金啊等等。直接用分列即可。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。
![这里写图片描述](//img-
blog.csdn.net/20180322153254669?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

3、清洗positionLables职位标签。某一个职位最多的标签有13个。

[‘实习生’, ‘主管’, ‘经理’, ‘顾问’, ‘销售’, ‘客户代表’, ‘分析师’, ‘职业培训’, ‘教育’, ‘培训’, ‘金融’, ‘证券’,
‘讲师’]

4、针对positionName用数据透视表,统计各名称出现的次数。
![这里写图片描述](https://img-
blog.csdn.net/20180322160633572?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

=COUNTIF(B4:B2166,”❤️”)
出现次数为3次以下的职位,有约一千,都是各类特别称谓。

那就用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位。

用find和数组函数结合,shift+ctrl+enter输入。就得到了多条件查找后的结果。

=IF(COUNT(FIND({“数据分析”,”数据运营”,”分析师”},N3)),”1”,”0”)

单纯的find 只会查找数据分析这个词,必须嵌套count才会变成真数组。
![这里写图片描述](https://img-
blog.csdn.net/20180322215250462?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

将ISDA值为1 的数据过滤出来,即为我们要分析的数据。

分析过程

因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。
1、城市分布

![这里写图片描述](https://img-
blog.csdn.net/20180323222852249?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
看来北京的数据分析岗位机会远较其他城市多。1-3年和3-5年两个时间段的缺口更大。应届毕业生似乎比1年一下经验的更吃香。爬取时间为11月,这时候校招陆续开始,大公司会
有线下校招,实际岗位应该更多。小公司则倾向发布。这是招聘网站的限制。

2、公司规模

![这里写图片描述](https://img-
blog.csdn.net/20180323223032859?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
公司越大,对数据分析的需求越多。但这样分析并不准确,应该用比例,计算不同类型的企业人均招聘数。还有一种情况是,企业刚好招满数据分析师,就不发布岗位了,数据包含的只是正在招聘数据分析师的企业,这些都是限制分析的因素。

3、看一下各城市招聘Top5公司。

![这里写图片描述](https://img-
blog.csdn.net/20180323225217647?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
(先筛选出各城市,然后分别做数据透视表。)

北京的美团以78个数据分析职位招聘力压群雄,甚至一定程度上拉高了北京的数据。
比较奇怪的是阿里巴巴并没有在杭州上榜,看来是该阶段招聘需求不大,或者数据分析师有其他招聘渠道。

4、我们看一下数据分析师的薪水

筛选出ISDA=1的数据,复制到另一张表中,再用数据透视表。
![这里写图片描述](https://img-
blog.csdn.net/20180324221415489?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

南京、西安在应届生中的平均薪资最高,是因为招聘职位不多,单独一两个企业的高薪影响了平均数,其余互联网二线城市同理。当工作年限达到3年以上,北上深杭的数据分析师薪资则明显高于其他城市。

数据会有误差性么?会的,因为存在薪资极值影响。而数据透视表没有中位数选项。我们也可以单独用分位数进行计算,降低误差。
![这里写图片描述](https://img-
blog.csdn.net/20180324223110476?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

分析师、数据、数据分析是最多的标签。除此以外,需求分析,BI,数据挖掘也出现在前列。看来不少数据分析师的要求掌握数据挖掘

excel数据分析案例相关推荐

  1. Excel数据分析案例三——预测销量

    Excel数据分析案例三--预测销量 题目:有某服装实体店5.1~5.24每天的销售数据表,要求根据现有的销量数据预测接下来一星期,也就是5.25 ~ 5.30的销量,图表大致信息如下 此时需要用到E ...

  2. Excel数据分析案例四——留存预测

    Excel数据分析案例四--留存预测 题目:一个社交APP,它的新增用户次日留存率.七日留存率.30日留存率分别是52%.25%.14%,请模拟出如果每天新增6万用户量,那么第三十天,它的日活跃用户回 ...

  3. excel数据分析案例——电信运营商用户流失分析

    原文:https://zhuanlan.zhihu.com/p/55686050 本文为原文基础上的练习作 数据来源:https://www.kaggle.com/blastchar/telco-cu ...

  4. excel数据分析案例——美国全国牛油果销售状况分析

    本文是基于文章→https://zhuanlan.zhihu.com/p/45877488 下的练习作. 数据源:https://www.kaggle.com/neuromusic/avocado-p ...

  5. 一份电商数据分析案例

    作者:Dake 1. 分析背景 这是一份巴西Olist(2016年8月-2018年8月)电商数据平台的数据.这里只筛选了2017-2018年的数据来进行分析. 分析该数据可以看出近两年的销售业绩,店铺 ...

  6. 泰坦尼克号数据分析案例实战

    这是一个很经典的案例,很多博主都写过,对,就是它:泰坦尼克号生存率的分析,它是kaggle上的一道题,通过船上乘客的信息分析和建模,预测哪些乘客得以生还. 我们就非常粗暴地拿这个数据集做一个简单的分析 ...

  7. 【数据分析案例】用Excel进行数据分析:从市场调研到销售分析

    作者:禅与计算机程序设计艺术 [数据分析案例]用Excel进行数据分析:从市场调研到销售分析 1. 引言 1.1. 背景介绍 在当今信息时代,数据分析已成为各个行业必备的一环.无论是在市场营销.销售. ...

  8. 3星|《数据思维:从数据分析到商业价值》:有趣的数据分析案例

    3星|<数据思维:从数据分析到商业价值>:有趣的数据分析案例 Posted on 2017-11-24 19:59 左其盛 阅读(118) 评论(0) 编辑 收藏 数据思维(从数据分析到商 ...

  9. 五十五、手把手教你从零到一,完成淘宝数据分析案例

    这是之前投稿的文章. 数据集下载 链接:https://pan.baidu.com/s/1eibGBqA7Whj73R3oEBYs2w 提取码:sbxs 淘宝数据分析案例 假设,老板是做服装的行业的. ...

最新文章

  1. slider(滑动条)控件模版,样式--用图片定义控件模版
  2. 重磅!2020年度人类社会发展十大科学问题发布
  3. 过滤器解决Struts2重定向漏洞
  4. 如何使用robots禁止各大搜索引擎爬虫爬取网站
  5. 2011-10-13
  6. 搞定机器学习面试,这些是基础!
  7. lammps后处理:ovito快速提取单条位错线的伯氏矢量
  8. 拉普拉斯平滑Laplace Smoothing
  9. logit回归模型的参数估计过程_LOGISTIC模型参数估计及预测实例.pdf
  10. PHP中常用的十个字符串函数
  11. python实现数的逆序_python怎么逆序
  12. 微服务架构(Microservices)
  13. 【学习笔记】树莓派(3B+)及VMware对于代理Proxy的使用
  14. 家庭理财管理系统/家庭财务管理系统
  15. mse python_python3 MSE实现
  16. 校招生向京东发起的“攻势”,做到他这样,你,也可以
  17. win无法连接网络计算机6,用Win7网络诊断工具只需六步轻松解决无线网络连接问题...
  18. 期间成本法与销售成本法
  19. 浅析私有化即时通讯软件的功能
  20. KruskalAlgorithm(克鲁斯卡尔算法)

热门文章

  1. 安卓屏幕坏了怎么把资料拷出来_选择苹果还是安卓呢?(老安卓转苹果11用户体验)...
  2. 机器学习【期末复习总结】——知识点和算法例题(详细整理)
  3. Matlab:图像轮廓的曲率计算
  4. android-帧动画(原地不动人再走路)
  5. 邦纳超声波传感器Q45ULIU64BCR
  6. 【渝粤教育】电大中专常见病药物治疗_1作业 题库
  7. VC 编译选项的使用点滴 warring lnk4908
  8. 前端大屏展示框架搭建(二)
  9. APP移动应用测试策略与工具思维导图
  10. H5游戏-面试问题知识点总结