原来excel也能做职业数据分析(步骤完整且过程详细)
一、数据分析步骤
1、提出问题——明确数据分析目的
2、理解数据——理解数据列名的意义
3、数据清洗——统一格式内容
4、构建模型——思考用什么样的表现形式把数据呈现出来
5、数据可视化——把数据转化成图
二、提出问题
首先要明确这次数据分析的目的是什么?也就是为了解决什么问题?(提出的问题要能用很明确的指标和数字来衡量,切勿模棱两可)
提出问题:
1、在哪些城市找到数据分析师工作的机会比较大?
2、数据分析师的薪水如何?
3、根据工作经验的不同,薪酬是怎样变化的?
三、理解数据
也就是理解表格中的各个字段表示的什么意思
城市: 用于比较不同城市对数据分析师的需求如何
职位所属:分析以后的工作岗位
职位ID:表示职位的唯一表示,也就是每一行数据的唯一标识------用于去掉重复ID
薪水:比较不同城市、和所属领域的薪水区别
工作年限:从时间轴上对比薪资涨幅
四、数据清洗
数据清洗即数据预处理,目的是去掉无效、重复数据,以取得符合我们要求的数据。
数据清洗的基本步骤:
1、选择子集
只选择对数据分析有意义的字段,无意义的字段选择隐藏,即隐藏不需要分析的列(尽量不删,保证数据的完整性)。这里隐藏公司ID和公司全名,保留职位ID和公司简称。
2、列名重命名
将不合适的列名更改为我们容易理解的形式。
3、删除重复值
对重复数据进行删除,这里我们对【职场ID】列进行删除重复值处理:
4、缺失值处理
先检查数据是否存在缺失值,先查看完整数据列的计数:
再选择其他列查看是否缺失数据:
可以看出【城市】这一列缺失2条数据。
一般对缺失值的处理有4种方法,根据情况灵活使用:
① 通过人工手动补全(缺失值较少,并且可以根据其他信息确定该值)
② 删除缺失的数据(无法判断该位置填写何值,或者删除的数据对分析无大的影响
③ 用平均值代替缺失值
④ 用统计模型计算出的值去代替缺失值
这里对【城市】这一列的处理方法:
由于缺失数据较少,这里选用人工手动补全,使用Ctrl+Eneter快捷键,在不连续的单元格中同时输入同一个数据或公式时很好用:
5.一致化处理
(1)对数据进行统一的命名和处理。比如数据中的公司的所属领域是“企业服务,数据服务”,对该列数据进行拆分。
步骤:选中要进行拆分的列-选项卡-数据---分列--分隔符号---下一步---勾选 其他,并入输入“,”且 勾选 连续分隔符视为单个处理(注意,将输入法 切到 中文状态 ,因为 中文的逗号和英文的不是一种字符)---下一步--完成,就会看到 在右边生了一列出来,如图:
注意事项:
①将数据先复制到最后一列(分列功能会覆盖右边单元格),隐藏原始列----进行分列;
②对拆分出来的一页 添加列名:公司所属领域2,原来列的列名改为公司所属领域1 ,否则数据透视时会出现警告:”数据表字段名无效。
(2)我们将薪水处理成【最低薪水】、【最高薪水】、【平均薪水】,用于存放清洗后的薪水数据。这里有两个方法可以实现:
一种是使用上面提到的分列功能,将【-】作为分隔符号,然后用【查找替换】功能替换掉【k】,再使用函数AVERAGE求出平均薪水。
第二种是利用函数实现:
FIND函数的意思是查找一个字符串在另一个字符串中出现的起始位置,用FIND 函数查找分隔符【k】或者【-】。
FIND函数用来对原始数据中某个字符串进行定位,以确定其位置。FIND函数进行定位时,总是从指定位置开始,返回找到的第一个匹配字符串的位置,而不管其后是否还有相匹配的字符串。
LEFT函数(从左开始截取字符串),MID函数(从中间截取字符串),Len函数(计算字符串长度),函数具体用法可以在百度上查。
利用LEFT函数截取最低薪水:
同理,使用MID函数截取最高薪水:
在做的时候会最高薪水这一列出现错误值,使用筛选的功能查找错误值:
报错原因是在薪水这一列中数值有问题,其一是k的大小写问题,出现有大写的K,可使用查找替换修改大写为小写。
其二是出现薪资范围是多少k以上:
具体操作方法如下:选中最高薪水列,定位条件为错误。然后delete删除错误值。再在单元格内输入=ctrl+方向键←,让其等于最低薪水;最后Ctrl+enter,批量操作。
在操作的时候会出现数字显示为文本格式,可以选中该列×1,使其转换成数字格式。
当所有操作都完成之后,使用average函数对其求均值。
6、数据排序
我们对【平均薪水】这一列进行降序排序:
7、异常值处理
使用数据透视表处理表格:
此时发现【职位名称】中有职位不属于数据分析:
这些异常值需要去掉,应返回原表重新筛查。
步骤:
① 在原表【职位名称】列后插入新的列命名为“数据分析职位名称”;
② 在下方空白单元格插入函数=IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否");
③ 双击单元格右下方进行自动填充;
④ 使用筛选功能,选择“是”,过滤掉异常值。
四、构建模型及数据可视化
1、在哪些城市找到数据分析师工作的机会比较大?
以城市为行标签,工作年限要求为列标签,数据透视分析不同城市对不同年限的数据分析师的需求情况。
步骤:全选--选项卡,数据透视图----将数据透视表字段中的【城市】拖入到行,将【工作年限要求】拖入到列,再将【城市】拖入到值中:
再点选表格中左上角行标签---其他排序选项---降序排序--计数项:城市
最后将数值按列汇总的百分比显示数据:
将值按行汇总百分比显示数据:
结论:从数据透视表可以看出,在北京数据分析的岗位最多,往后是上海、深圳、杭州、广州;按工作年限要求来看,3-5年的需求量最大,其次是1-3年,这说明数据分析对年轻人需求将更多。
2、数据分析师的薪水如何?
首先,安装EXCEL 的分析工具库功能:选项卡,文件--选项---加载项---管理,选择 EXCEL 加载项---转到---勾选 分析工具库---确定。
操作步骤:选项卡》数据 在右边出现有:数据分析 点击---对话框中,勾选 描述统计----确定----输入区域,框选中平均薪水列---分组方式--逐列----勾选 标志位于第一行(表明第一行是列名不包括在计算机里面)-----点选中:新工作表组---输入:薪水描述统计(工作表名称)-----勾选 归总统计、平均数置信度95%、第K值大致5、第K值小值5----确定,结果如下图:
以城市为行标签,平均薪水为列标签,数据透视表分析城市与平均薪水的关系:
结论:从上面数据透视结果可以看出,深圳的数据分析师平均薪水最高,其次是北京,上海,杭州。
3、根据工作经验的不同,薪酬是怎样变化的?
以工作年限要求行标签,平均薪水为列标签,数据透视分析工作年限与平均薪水的关系:
结论:从上面数据透视结果可以看出,随着工作经验的增长,数据分析师的薪酬也在不断增加。
综合上面三个数据透视结果,我们可以得到以下分析结论:
1)数据分析这一岗位,有大量的工作机会集中在北上广深以及新一线城市,如果将来去这些城市找工作,可以提高求职成功的条件概率。
2)从待遇上看,数据分析师留在深圳发展是个不错的选择,其次是北京、上海。
3)数据分析是个年轻的职业方向,大量的工作经验需求集中在1-5年。
对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有提升自己的能力,大概以后的竞争压力会比较大。
4)随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。
详情可以关注公众号:数据分析不是个事儿
原来excel也能做职业数据分析(步骤完整且过程详细)相关推荐
- 0代码就能做Python数据分析,这个Jupyter插件,用起来就像Excel一样简单
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 加载一个Jupyter插件后,无需写代码就能做数据分析,还帮你生成相应代码? 没错,只需要加载这个名为Mito的小工具包,用Python做数 ...
- 数据分析如何入门?如何做职业规划?
还记得第一次听说数据分析这个词是大二的时候,那时候铺天盖地的Python 数据分析课程,但是我那个时候是学的 Python 全栈.真正接触到数据分析是从量化交易开始的,那时候沉迷于看K线图,就想能不能 ...
- python与excel做数据可视化-python做可视化数据分析,究竟怎么样?
Python做可视化数据分析也是可以的,只是对比起来专业的可视化工具有些得不应手,做出来的图可能不太美观.Python用来处理数据,用来分析绝对可以.我觉得想要可视化可以使用专门的可视化工具. 不过, ...
- excel插入页码_95后小姐姐打印Excel表格前做了1个步骤,工资直接从3000涨到6000!...
点击上方↑蓝字关注 Excel函数与公式 顶公众号或设为星标,否则可能收不到文章 进公众号发送函数名称,免费获取对应教程 世界之大,无奇不有. 同一个单位同一个活儿,不同的人做,你会发现忙的能忙死,闲 ...
- 【送书】Excel是最牛的数据分析工具,不接受反驳!
大家好,我是老彭.讲真,我用过非常多的数据分析产品,到现在我仍然认为Excel是最牛的数据分析产品. 无他,就是因为但凡你要做数据,就根本离不开它.有人说:Excel太Low了吧!数据分析这么高大上的 ...
- 做了这么久数据分析没收获,原来一直在做“伪数据分析”
用数据说话已成为流行语,数据分析能力,俨然已经成为互联网人的必备技能. 现在各行各业,越来越多的企业都在努力寻求具备数据分析能力的人才和专业数据分析人才,几乎所有的中.高阶产品.运营和市场甚至管理岗位 ...
- 『对比Excel,轻松学习Python数据分析』新书发布
之前在公众号提过,我写了一本书,现在这本书终于面世了,这本书就是『对比Excel,轻松学习Python数据分析』,这本书是写什么的,以及这本书怎么写的,相信大家通过书名就能了解一二,但还是有必要专门写 ...
- python和excel的区别-对比Excel,轻松学习Python数据分析
阅读权限50威望2 级论坛币2119 个学术水平357 点热心指数383 点信用等级313 点经验103301 点帖子917精华在线时间8677 小时注册时间2012-3-28最后登录2020-10- ...
- 超越Excel,使用Python进行数据分析!
自从Python有了电子表格,使用Python可比Excel更方便. 扫码关注<Python学研大本营> 作者是Frank Andrade,发表于Medium上的极客文化. 这里有一些电子 ...
- 北京做大数据分析的公司排名有哪些
北京做大数据分析的公司排名有哪些 大数据分析的工作流程是什么 大数据分析流程如下: 第一步:从多个来源收集数据 可以多种格式(JSON.CSV.HTML)和多种来源收集,包括: 一线 华盛恒辉.五木恒 ...
最新文章
- Debian7.0中Fcitx输入法无可用前端问题解决
- 【VBA研究】查找目录以下全部文件的名称
- secureCRT 右键的设置选中就copy or 选中即粘贴
- linux单个core的线程,正确使用Core Data多线程的3种方式
- php e error,E_ERROR定义与用法汇总
- java实现多对多关系的方法_Hibernate一对多关联双向关联代码实现分享
- mysql报错型手工注入_mysql手工注入教程
- java hook 和反射_Java反射与hook混用反射某支付的方法
- 阿里云数据库RDS MySQL 物理全备文件数据恢复至自建数据库Mysql 5.7中
- 2017蓝桥杯C++B:等差素数列(枚举优化)
- Window 消息大全使用详解
- 需要实战项目的看过来: 黑马最新java《十次方》社交项目 请仔细看!
- Chrome浏览器数据本地备份
- 利用PicGo快速获得图片外链(七牛云图床)
- js获取某一天是星期几
- web程序无法访问:The requested resource () is not available.错误
- SQL 合并两个字段的数据 或者合并时添加符号 如:括号 等
- 使用F12下载GoToMeeting上录播的方法
- 发现一款程序员实用小工具
- css 科技 边框_一篇文章带你学习CSS3图片边框
热门文章
- Windows 系统服务优化指南
- c语言编写程序p1207.c,《C语言程序设计》(卷)考核班级
- 我的数学学习回忆录——一个数学爱好者的反思(二)
- html 伸缩布局,CSS3弹性伸缩布局(下)——flex布局
- 饥荒联机版服务器控制台本地和在线,饥荒联机服务器常用控制台指令
- 他们都说springboot是懒人神器,你觉得呢?
- C++中的悬垂指针(delete指针后依然可以访问的问题)
- 如何将IE浏览器设置为默认浏览器
- 网易的又一款榜首之作,《倩女幽魂》营销负责人解析
- scratch的官方版本和其他的改编版本/小喵科技Kittenblock/snap!/TurboWarp