excel数据分析案例
背景:现用Python爬取了某求职网站上关于数据分析的数据,我希望知道数据分析是个怎样的职位?它的工资和薪酬是多少?它有哪些特点,需要掌握哪些能力?哪些公司会招聘这样一个岗位?
1、数据有无缺失值?
数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓去,例如本身的缺失,该岗位的HR没有填写。
如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。
2、数据是否一致化?
一致化指的是数据是否有统一的标准或命名。
3、数据是否有脏数据
脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。
使用Excel的删除重复项功能,快速定位是否有重复数据。
4、数据标准结构
数据标准结构,就是将特殊结构的数据进行转换和规整。
表格中,companyLableList就是以数组形式保存(JSON中的数组),我们后续得将这类格式拆分开来
![这里写图片描述](//img-
blog.csdn.net/20180322144840149?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
薪水用了几K表示,这是文本,并不能直接用于计算。而且是一个范围,后续得按照最高薪水和最低薪水拆成两列。
![这里写图片描述](//img-
blog.csdn.net/20180322144944697?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
数据清洗
1、将salary拆成最高薪水和最低薪水有二种办法。
一是直接分列,以”-“为拆分符,得到两列数据,然后利用替换功能删除 k这个字符串,得到结果。
二是利用文本查找的思想,重点讲一下这个。先用 =FIND(“k”,O2,1)。查找第一个K(最低薪酬)出现的位置。
这里FIND函数对大小写敏感,数据中的k是小写。
两列分别命名为bottomSalary和topSalary,下面找出bottomSalary:
![这里写图片描述](//img-
blog.csdn.net/20180322145454944?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
输入=LEFT(O2,FIND(“k”,O2,1))得到的结果就是 7K,要去除掉k,FIND(“k”,O2,1)再减去1即可。
最高薪水也是同样的思路,但不能使用第一个K的位置,因为第二个薪水位置不固定。需要利用find查找”-“位置,然后截取 从”-” 到最后第二个位置的字符串。
=MID(O2,FIND(“-“,O2,1)+1,LEN(O2)-FIND(“-“,O2,1)-1)
![这里写图片描述](//img-
blog.csdn.net/20180322150057175?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
上面的公式输入成功后,要想对每一行都套用,可以利用单元格的右下角,向下拖拽即可。
因为薪水是一个范围,我们不可能拿范围计算平均工资。那怎么办呢?我们只能取最高薪水和最低薪水的平均数作为该岗位薪资。这是数据来源的缺陷,因为我们并不能知道应聘者实际能拿多少。这是薪水计算的误差。
![这里写图片描述](//img-
blog.csdn.net/20180322152030739?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
因为R2,S2为文本,所以要写成R2*1,把它转换成数值。
文本格式里输入数字,显示仍然会是数字,只是对齐方式不一样:
文本格式靠左对齐,数字格式靠右对齐.
还有就是用函数计算的时候不同:文本格式不参与函数里数值的计算,
另一个误差就是 工资范围写成6k以上,我们取最高薪水和最低薪水相等。
2、companyLabelList 分列
companyLabelList是公司标签,诸如技能培训啊、五险一金啊等等。直接用分列即可。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。
![这里写图片描述](//img-
blog.csdn.net/20180322153254669?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
3、清洗positionLables职位标签。某一个职位最多的标签有13个。
[‘实习生’, ‘主管’, ‘经理’, ‘顾问’, ‘销售’, ‘客户代表’, ‘分析师’, ‘职业培训’, ‘教育’, ‘培训’, ‘金融’, ‘证券’,
‘讲师’]
4、针对positionName用数据透视表,统计各名称出现的次数。
![这里写图片描述](https://img-
blog.csdn.net/20180322160633572?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
=COUNTIF(B4:B2166,”❤️”)
出现次数为3次以下的职位,有约一千,都是各类特别称谓。
那就用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位。
用find和数组函数结合,shift+ctrl+enter输入。就得到了多条件查找后的结果。
=IF(COUNT(FIND({“数据分析”,”数据运营”,”分析师”},N3)),”1”,”0”)
单纯的find 只会查找数据分析这个词,必须嵌套count才会变成真数组。
![这里写图片描述](https://img-
blog.csdn.net/20180322215250462?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
将ISDA值为1 的数据过滤出来,即为我们要分析的数据。
分析过程
因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。
1、城市分布
![这里写图片描述](https://img-
blog.csdn.net/20180323222852249?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
看来北京的数据分析岗位机会远较其他城市多。1-3年和3-5年两个时间段的缺口更大。应届毕业生似乎比1年一下经验的更吃香。爬取时间为11月,这时候校招陆续开始,大公司会
有线下校招,实际岗位应该更多。小公司则倾向发布。这是招聘网站的限制。
2、公司规模
![这里写图片描述](https://img-
blog.csdn.net/20180323223032859?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
公司越大,对数据分析的需求越多。但这样分析并不准确,应该用比例,计算不同类型的企业人均招聘数。还有一种情况是,企业刚好招满数据分析师,就不发布岗位了,数据包含的只是正在招聘数据分析师的企业,这些都是限制分析的因素。
3、看一下各城市招聘Top5公司。
![这里写图片描述](https://img-
blog.csdn.net/20180323225217647?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
(先筛选出各城市,然后分别做数据透视表。)
北京的美团以78个数据分析职位招聘力压群雄,甚至一定程度上拉高了北京的数据。
比较奇怪的是阿里巴巴并没有在杭州上榜,看来是该阶段招聘需求不大,或者数据分析师有其他招聘渠道。
4、我们看一下数据分析师的薪水
筛选出ISDA=1的数据,复制到另一张表中,再用数据透视表。
![这里写图片描述](https://img-
blog.csdn.net/20180324221415489?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
南京、西安在应届生中的平均薪资最高,是因为招聘职位不多,单独一两个企业的高薪影响了平均数,其余互联网二线城市同理。当工作年限达到3年以上,北上深杭的数据分析师薪资则明显高于其他城市。
数据会有误差性么?会的,因为存在薪资极值影响。而数据透视表没有中位数选项。我们也可以单独用分位数进行计算,降低误差。
![这里写图片描述](https://img-
blog.csdn.net/20180324223110476?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
分析师、数据、数据分析是最多的标签。除此以外,需求分析,BI,数据挖掘也出现在前列。看来不少数据分析师的要求掌握数据挖掘
excel数据分析案例相关推荐
- Excel数据分析案例三——预测销量
Excel数据分析案例三--预测销量 题目:有某服装实体店5.1~5.24每天的销售数据表,要求根据现有的销量数据预测接下来一星期,也就是5.25 ~ 5.30的销量,图表大致信息如下 此时需要用到E ...
- Excel数据分析案例四——留存预测
Excel数据分析案例四--留存预测 题目:一个社交APP,它的新增用户次日留存率.七日留存率.30日留存率分别是52%.25%.14%,请模拟出如果每天新增6万用户量,那么第三十天,它的日活跃用户回 ...
- excel数据分析案例——电信运营商用户流失分析
原文:https://zhuanlan.zhihu.com/p/55686050 本文为原文基础上的练习作 数据来源:https://www.kaggle.com/blastchar/telco-cu ...
- excel数据分析案例——美国全国牛油果销售状况分析
本文是基于文章→https://zhuanlan.zhihu.com/p/45877488 下的练习作. 数据源:https://www.kaggle.com/neuromusic/avocado-p ...
- 一份电商数据分析案例
作者:Dake 1. 分析背景 这是一份巴西Olist(2016年8月-2018年8月)电商数据平台的数据.这里只筛选了2017-2018年的数据来进行分析. 分析该数据可以看出近两年的销售业绩,店铺 ...
- 泰坦尼克号数据分析案例实战
这是一个很经典的案例,很多博主都写过,对,就是它:泰坦尼克号生存率的分析,它是kaggle上的一道题,通过船上乘客的信息分析和建模,预测哪些乘客得以生还. 我们就非常粗暴地拿这个数据集做一个简单的分析 ...
- 【数据分析案例】用Excel进行数据分析:从市场调研到销售分析
作者:禅与计算机程序设计艺术 [数据分析案例]用Excel进行数据分析:从市场调研到销售分析 1. 引言 1.1. 背景介绍 在当今信息时代,数据分析已成为各个行业必备的一环.无论是在市场营销.销售. ...
- 3星|《数据思维:从数据分析到商业价值》:有趣的数据分析案例
3星|<数据思维:从数据分析到商业价值>:有趣的数据分析案例 Posted on 2017-11-24 19:59 左其盛 阅读(118) 评论(0) 编辑 收藏 数据思维(从数据分析到商 ...
- 五十五、手把手教你从零到一,完成淘宝数据分析案例
这是之前投稿的文章. 数据集下载 链接:https://pan.baidu.com/s/1eibGBqA7Whj73R3oEBYs2w 提取码:sbxs 淘宝数据分析案例 假设,老板是做服装的行业的. ...
最新文章
- slider(滑动条)控件模版,样式--用图片定义控件模版
- 重磅!2020年度人类社会发展十大科学问题发布
- 过滤器解决Struts2重定向漏洞
- 如何使用robots禁止各大搜索引擎爬虫爬取网站
- 2011-10-13
- 搞定机器学习面试,这些是基础!
- lammps后处理:ovito快速提取单条位错线的伯氏矢量
- 拉普拉斯平滑Laplace Smoothing
- logit回归模型的参数估计过程_LOGISTIC模型参数估计及预测实例.pdf
- PHP中常用的十个字符串函数
- python实现数的逆序_python怎么逆序
- 微服务架构(Microservices)
- 【学习笔记】树莓派(3B+)及VMware对于代理Proxy的使用
- 家庭理财管理系统/家庭财务管理系统
- mse python_python3 MSE实现
- 校招生向京东发起的“攻势”,做到他这样,你,也可以
- win无法连接网络计算机6,用Win7网络诊断工具只需六步轻松解决无线网络连接问题...
- 期间成本法与销售成本法
- 浅析私有化即时通讯软件的功能
- KruskalAlgorithm(克鲁斯卡尔算法)