excel数据分析案例

背景：现用Python爬取了某求职网站上关于数据分析的数据，我希望知道数据分析是个怎样的职位？它的工资和薪酬是多少？它有哪些特点，需要掌握哪些能力？哪些公司会招聘这样一个岗位？

1、数据有无缺失值？
数据的缺失值很大程度上影响分析结果。引起缺失的原因很多，例如技术原因，爬虫没有完全抓去，例如本身的缺失，该岗位的HR没有填写。

如果某一字段缺失数据较多（超过50%），分析过程中要考虑是否删除该字段，因为缺失过多就没有业务意义了。

2、数据是否一致化？
一致化指的是数据是否有统一的标准或命名。

3、数据是否有脏数据
脏数据是分析过程中很讨厌的环节。例如乱码，错位，重复值，未匹配数据，加密数据等。能影响到分析的都算脏数据，没有一致化也可以算。

使用Excel的删除重复项功能，快速定位是否有重复数据。

4、数据标准结构
数据标准结构，就是将特殊结构的数据进行转换和规整。

表格中，companyLableList就是以数组形式保存（JSON中的数组）,我们后续得将这类格式拆分开来
![这里写图片描述](//img-
blog.csdn.net/20180322144840149?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

薪水用了几K表示，这是文本，并不能直接用于计算。而且是一个范围，后续得按照最高薪水和最低薪水拆成两列。
![这里写图片描述](//img-
blog.csdn.net/20180322144944697?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

数据清洗

1、将salary拆成最高薪水和最低薪水有二种办法。

一是直接分列，以”-“为拆分符，得到两列数据，然后利用替换功能删除 k这个字符串，得到结果。

二是利用文本查找的思想，重点讲一下这个。先用 =FIND(“k”,O2,1)。查找第一个K（最低薪酬）出现的位置。

这里FIND函数对大小写敏感，数据中的k是小写。

两列分别命名为bottomSalary和topSalary，下面找出bottomSalary：
![这里写图片描述](//img-
blog.csdn.net/20180322145454944?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

输入=LEFT(O2,FIND(“k”,O2,1))得到的结果就是 7K，要去除掉k，FIND(“k”,O2,1)再减去1即可。

最高薪水也是同样的思路，但不能使用第一个K的位置，因为第二个薪水位置不固定。需要利用find查找”-“位置,然后截取从”-” 到最后第二个位置的字符串。

=MID(O2,FIND(“-“,O2,1)+1,LEN(O2)-FIND(“-“,O2,1)-1)
![这里写图片描述](//img-
blog.csdn.net/20180322150057175?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

上面的公式输入成功后，要想对每一行都套用，可以利用单元格的右下角，向下拖拽即可。

因为薪水是一个范围，我们不可能拿范围计算平均工资。那怎么办呢？我们只能取最高薪水和最低薪水的平均数作为该岗位薪资。这是数据来源的缺陷，因为我们并不能知道应聘者实际能拿多少。这是薪水计算的误差。
![这里写图片描述](//img-
blog.csdn.net/20180322152030739?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

因为R2，S2为文本，所以要写成R2*1，把它转换成数值。

文本格式里输入数字,显示仍然会是数字,只是对齐方式不一样:

文本格式靠左对齐,数字格式靠右对齐.

还有就是用函数计算的时候不同：文本格式不参与函数里数值的计算,

另一个误差就是工资范围写成6k以上，我们取最高薪水和最低薪水相等。

2、companyLabelList 分列
companyLabelList是公司标签，诸如技能培训啊、五险一金啊等等。直接用分列即可。大家需要注意，分列会覆盖掉右列单元格，所以记得复制到最后一列再分。
![这里写图片描述](//img-
blog.csdn.net/20180322153254669?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

3、清洗positionLables职位标签。某一个职位最多的标签有13个。

[‘实习生’, ‘主管’, ‘经理’, ‘顾问’, ‘销售’, ‘客户代表’, ‘分析师’, ‘职业培训’, ‘教育’, ‘培训’, ‘金融’, ‘证券’,
‘讲师’]

4、针对positionName用数据透视表，统计各名称出现的次数。
![这里写图片描述](https://img-
blog.csdn.net/20180322160633572?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

=COUNTIF(B4:B2166,”❤️”)
出现次数为3次以下的职位，有约一千，都是各类特别称谓。

那就用关键词查找的思路，找出包含有数据分析、分析师、数据运营等关键词的岗位。

用find和数组函数结合，shift+ctrl+enter输入。就得到了多条件查找后的结果。

=IF(COUNT(FIND({“数据分析”,”数据运营”,”分析师”},N3)),”1”,”0”)

单纯的find 只会查找数据分析这个词，必须嵌套count才会变成真数组。
![这里写图片描述](https://img-
blog.csdn.net/20180322215250462?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

将ISDA值为1 的数据过滤出来，即为我们要分析的数据。

分析过程

因为主要数据均是文本格式，所以偏向汇总统计的计算。如果数值型的数据比较多，就会涉及到统计、比例等概念。如果有时间类数据，那么还会有趋势、变化的概念。
1、城市分布

![这里写图片描述](https://img-
blog.csdn.net/20180323222852249?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
看来北京的数据分析岗位机会远较其他城市多。1-3年和3-5年两个时间段的缺口更大。应届毕业生似乎比1年一下经验的更吃香。爬取时间为11月，这时候校招陆续开始，大公司会
有线下校招，实际岗位应该更多。小公司则倾向发布。这是招聘网站的限制。

2、公司规模

![这里写图片描述](https://img-
blog.csdn.net/20180323223032859?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
公司越大，对数据分析的需求越多。但这样分析并不准确，应该用比例，计算不同类型的企业人均招聘数。还有一种情况是，企业刚好招满数据分析师，就不发布岗位了，数据包含的只是正在招聘数据分析师的企业，这些都是限制分析的因素。

3、看一下各城市招聘Top5公司。

![这里写图片描述](https://img-
blog.csdn.net/20180323225217647?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
（先筛选出各城市，然后分别做数据透视表。）

北京的美团以78个数据分析职位招聘力压群雄，甚至一定程度上拉高了北京的数据。
比较奇怪的是阿里巴巴并没有在杭州上榜，看来是该阶段招聘需求不大，或者数据分析师有其他招聘渠道。

4、我们看一下数据分析师的薪水

筛选出ISDA=1的数据，复制到另一张表中，再用数据透视表。
![这里写图片描述](https://img-
blog.csdn.net/20180324221415489?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

南京、西安在应届生中的平均薪资最高，是因为招聘职位不多，单独一两个企业的高薪影响了平均数，其余互联网二线城市同理。当工作年限达到3年以上，北上深杭的数据分析师薪资则明显高于其他城市。

数据会有误差性么？会的，因为存在薪资极值影响。而数据透视表没有中位数选项。我们也可以单独用分位数进行计算，降低误差。
![这里写图片描述](https://img-
blog.csdn.net/20180324223110476?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

分析师、数据、数据分析是最多的标签。除此以外，需求分析，BI，数据挖掘也出现在前列。看来不少数据分析师的要求掌握数据挖掘