数据分析的五大步骤:

接下来根据以上步骤对招聘信息进行数据分析
一、 提出问题

  1. 数据分析师的工资如何?
  2. 数据分析师在不同的城市工作机会又是如何?
  3. 数据分析师的工资跟工作经验是什么关系?
    二、 理解数据
    理解表的字段
    城市:比较不同城市,对数据分析师的需求是怎么样的?
    职业ID:职位的唯一标识符,可以根据这个字段去掉重复的ID
    薪水:比较不同城市,不同阶段的薪水情况
    工作年限要求:根据工作经验判断薪水情况
    三、 数据清洗
    数据清洗就是数据的预处理,去掉重复值,处理缺失值,筛选符合我们要求的数据
  4. 选择子集
    本来数据字段如截图

    我们可以隐藏不需要分析的字段,不用删掉,因为要保证数据的完整性,选择隐藏的字段后的数据字段如下:
    操作:选中你要隐藏的字段->鼠标右击->选择隐藏
  5. 列名重命名
    将不合适的不是通熟易懂的字段重命名为我们所容易理解的字段名。
  6. 删除重复值
    对重复的数据进行删除

  7. 处理缺失值
    先查看数据完整的列的计数,然后检查其他列的计数就可以判断数据是否缺失

    这里职位ID的数据是完整的,计数如右下角
    选中城市列可以发现该列缺失两个数据

    处理缺失值有4种方法:
    a) 通过人工补全
    b) 删除缺失值
    c) 用平均值补充
    d) 用统计模型计算出的值去补充
    这里对(城市)这一列数据的补充如下:


输入“上海”,按住Ctrl+Enter就可以补充其他空值为“上海”
5. 一致化处理
1)对数据统一的命名和处理
举例数据中的公司所属领域是“移动互联网,电子商务” 这样的数据是要拆分列
步骤如下:




注意:
1) 要将数据先复制到最后一列,因为分列会覆盖右边单元格,隐藏原始列
2) 对拆分的列要进行命名,且要跟原来的列有所区分,否则数据透视时会出现警告:“数据表字段名无效”
接下来用另一个方法对薪水列进行分列
首先对以下函数进行理解
Find(要查找的字符串,字符串所在单元格位置)
Left/Right(字符串所在单元格位置,从左/右开始到某位置进行截取)
Mid(字符串所在单元格位置,开始位置,截取长度)
Len函数(计算字符串长度)
查找“k”:Find(“k”,Q2)

最低薪水的取值可以利用Left函数截取
LEFT(Q2,Find(“k”,Q2))
最高薪水的取值可以利用Mid函数截取

位置 1 2 3 4 5 6
字符串 7 k - 1 9 k
FIND(“-“,Q2)+1 意思是从第四个位置开始
LEN(Q2)-FIND(“-”,Q2)意思是6-3
综合起来就是要LEN(Q2)-FIND(“-”,Q2)-1
Mid(Q2, FIND(“-“,Q2)+1, LEN(Q2)-FIND(“-”,Q2)-1)

完成拆分列后要检测数据是否正确,此时可以用筛选功能去检测



观察数据可以看出是因为薪水这一列K是大写导致数据异常,那么可以利用查找和替换功能去解决这个异常问题

此时利用筛选功能你可以看到数据没有异常了,接下来检测最高薪水

最高薪水这一列的数据异常是因为薪水这一列是多少k以上的

解决方法:
选中最高薪水该列,定位条件为错误,


然后清除内容,输入=按住ctrl+方向键然后ctrl+ENTER,意思是用左边单元格数据填充
平均薪水,利用AVERAGE函数去求即可
6. 数据排序
对平均薪水降序排序

7. 异常值处理
使用数据透视表处理表格



上图可以看到这些值是异常的,不是我们要的数据分析,所以要去除掉
步骤如下:
1) 在原表中职位名称后面插入新的列命名为“数据分析职位名称”
2) 在单元格插入函数
=IF(COUNT(FIND({“数据运营”,“数据分析”,“分析师”},L2)),“是”,“否”)

3) 使用筛选功能去掉异常值也就是“否”
四、 构建模型及数据可视化

  1. 数据分析师在不同的城市工作机会又是如何?
    以城市为行标签,以工作年限要求为列标签,数据透视分析不同城市对不同年限的数据分析师的需求情况
    选中表格的行标签进行排序->其他排序选项->降序排序->计数项:城市

    将数值按列汇总的百分比显示的数据如下:

将数值按行汇总百分比显示的数据如下

结论:从数据透视表可以看出,在北京对数据分析师的需求最大,其次是上海,深圳,杭州,广州,按工作年限来看,对于有3-5年的工作经验的需求最大,其次是1-3年,可见数据分析师岗位对年轻人的需求是比较大的。
2. 数据分析师的工资如何?
数据分析要选择描述统计,然后根据下图进行操作


平均薪水

平均 17.11141
标准误差 0.126833
中位数 15
众数 15
标准差 8.996242
方差 80.93237
峰度 2.415907
偏度 0.973314
区域 73.5
最小值 1.5
最大值 75
求和 86087.5
观测数 5031
最大(5) 70
最小(5) 1.5
置信度(95.0%) 0.248649
五、 数据可视化






得出结论:

  1. 数据分析师的工作机会大多数分布在一线城市,北京的需求最多
  2. 薪资方面来看,是深圳的最高,其次是北京,上海。
  3. 随着工作经验的积累,薪资会不断的提升,因此可以得出工作经验对于数据分析师来说是比较重要的。
  4. 数据分析师是个较为年轻的职业方向,工作机会经验要求分布在1-3年,也可以看出5年是个瓶颈期。
  5. 对于广州来说,对工作经验需求比较大的是1-3年,薪资涨的幅度比较大的也是在有积累1-3年的时候比较大。

“数据分析师”招聘信息的数据分析相关推荐

  1. 数据分析师招聘岗位分析

    数据分析师招聘岗位分析 1.本文的目的和内容 1.1.本文的目的: 通过分析能够了解公司对于数据分析岗位的要求及待遇 1.2本文的内容: 主要针对以下几个问题: 1.数据分析岗位不同城市的需求分布: ...

  2. Python爬虫,爬取51job上有关大数据的招聘信息

    Python爬虫,爬取51job上有关大数据的招聘信息 爬虫初学者,练手实战 最近在上数据收集课,分享一些代码. 分析所要爬取的网址 https://search.51job.com/list/000 ...

  3. pandas预处理案例——数据分析师招聘数据清洗实战

    数据分析师招聘数据清洗实战 数据导入并查看 重复数据处理 异常值处理 缺失值处理 数据是数据分析师的招聘薪资,主要内容是进行数据读取,数据概述,数据清洗和整理 数据获取:链接:https://pan. ...

  4. 深圳python数据分析师招聘_Python爬取智联招聘数据分析师岗位相关信息的方法

    Python爬取智联招聘数据分析师岗位相关信息的方法 发布时间:2020-09-23 23:23:12 来源:脚本之家 阅读:88 进入智联招聘官网,在搜索界面输入'数据分析师',界面跳转,按F12查 ...

  5. 介绍一位高级数据分析师,告诉你数据分析原来这么好玩

    今天给大家推荐一个数据分析&挖掘领域的大牛:徐麟,之前在携程.唯品会等互联网公司从事担任高级数据分析师,同时创建了个人公众号数据森麟. 他的公众号已经开通1年多了,至今写了40多篇原创文章,很 ...

  6. python数据分析师书籍_做数据分析不得不看的书有哪些?

    小K给大家整理了一份书单,很适合刚接触数据分析的同学哦,快快收藏起来. <深入浅出数据分析> <深入浅出数据分析>写得漂亮,读者可以学到分析现实问题的系统性方法.从卖咖啡到开橡 ...

  7. Python爬虫 抓取大数据岗位招聘信息(51job为例)

    简单介绍一下爬虫原理.并给出 51job网站完整的爬虫方案. 爬虫基础知识 数据来源 网络爬虫的数据一般都来自服务器的响应结果,通常有html和json数据等,这两种数据也是网络爬虫的主要数据来源. ...

  8. 中国数据分析师行业峰会:数据分析 一门技术与艺术结合的学问

    CNET科技资讯网 9月23日 北京消息(文/齐丰润): 在大数据盛行的今天,数据的分析以及应用对于各个企业都可以说是至关重要的,而在这背后就显示出了当今的大环境下对于优秀的数据分析人才的重视与需求. ...

  9. 成为数据分析师所需的数据分析技能

    在大数据领域如果你打算成为一名成功的数据分析师,首先必须确保在数学.技术.商业智能.数据挖掘和统计方面已经的经验或经历.当然还需要具备一些分析技能,包括: 分析技能 顾名思义,很明显,分析技能在数据分 ...

  10. 成都数据分析师招聘:北京东方国信科技股份有限公司

    北京东方国信科技股份有限公司 东方国信(北京东方国信科技股份有限公司)成立于1997年,是中国领先的大数据上市科技公司(股票代码 300166).自成立以来,东方国信就专注于大数据领域,紧跟全球大数据 ...

最新文章

  1. 怎么提高大表和小表的连接查询效率?
  2. Py之matplotlib:在matplotlib库中利用legend函数创建自定义图例(代码实现)
  3. Silverlight 2.5D RPG游戏技巧与特效处理:(十六)动态资源
  4. Java命令行界面(第6部分):JOpt简单
  5. Java入门第三季——Java中的集合框架(中):MapHashMap
  6. 解决Lync Server前端必备组件Wmf2008R2安装失败
  7. CI/CD(持续集成构建/持续交付):如何测试/集成/交付项目代码?(Jenkins,TravisCI)
  8. FPGA 串口中断_正点原子【STM32-F407探索者】第九章 串口通信实验
  9. 对抗生成网络学习(五)——infoGAN生成宽窄不一,高低各异的服装影像(tensorflow实现)
  10. linux设置ipsan_Linux下搭建iSCSI共享存储详细步骤(服务器模拟IPSAN存储)
  11. 【Windows】VMware虚拟机安装Windows 10 教程
  12. 一篇文章,读懂9种优先的管理之道
  13. 天才在左,疯子在右读书笔记 -- 高铭著
  14. system/app 下 精简程序
  15. 问题描述】原始题目:一只公鸡 5 文钱,一只母鸡 3 文钱,三只小鸡 1 文钱,用 100 文钱买 100 只鸡,请问公鸡,母鸡,小鸡各多少只?(推广)
  16. 加州房价篇 (二) : 处理数据
  17. 【旧文集】一生伏首拜阳明-记于2017
  18. Excel表格数据导入到Oracle
  19. 通俗理解TIM定时器并简单使用
  20. 用matlab求一组数据的分布函数,求任意一组数据的概率密度函数

热门文章

  1. 计算机的ctrl按键,与Ctrl相关的电脑快捷键大全
  2. 微信公众号开发模式没有域名怎么办?申请免费域名
  3. 计算机专业必读哪些经典书籍?
  4. 装饰模式 DecoratePattern
  5. 凝思Linux6.0.60安装卸载NVIDIA显卡驱动
  6. kettle Call From LAPTOP-14BPR3NI/192.168.1.2 to locahost:8020 failed on connection
  7. 深入理解Flash Player的安全域
  8. 360度评估反馈实施的注意事项
  9. 卷积神经网络(CNN)到底是个什么鬼东西(结构及作用)
  10. 浏览器检测是否支持webrtc(看看你的浏览器能不能h5视频)