Python+BI分析5000条招聘数据,原来数据分析工作在这儿最好找
这两年的大数据热潮带火了数据分析这个职业,很多人想转行干数据分析,但是又不知道现在这个行业的求职环境和前景如何,动了心却不敢贸然行动。
前两天有个干运营的妹子找我聊天,也是问我数据分析岗位前景的问题,看在妹子长得实在好看的份上,我花了一晚上时间,去智联招聘上面爬了一下数据分析岗位的招聘数据,对数据分析岗位的薪水,需求情况,以及要求的工作年限做了个分析。
python数据爬取我就不多说了,可以参考网上的代码,我一共爬了5000条数据
拿到数据后,选择工具进行数据分析,一提到分析工具,很多人都会想到用Excel,我刚入行的时候也是“Excel打遍天下”,但Excel数据清洗和计算效率低下,需要进行大量重复性、低附加值的人工操作,而且要做好看的图表得花很多时间研究功能,遇到大数据量就卡的不行。后来我了解到了自助分析工具FineBI,从此放弃了Excel,这篇我就用FineBI来给大家展示一个完整的分析过程:
数据分析的步骤:
1、提出问题——明确数据分析目的
2、理解数据——理解数据列名的意义
3、数据清洗——统一格式内容
4、构建模型——思考用什么样的表现形式把数据呈现出来
5、数据可视化——把数据转化成图
提出问题
首先要明确这次数据分析的目的是什么?也就是为了解决什么问题?(提出的问题要能用很明确的指标和数字来衡量,切勿模棱两可)
提出问题:
1、在哪些城市找到数据分析师工作的机会比较大?
2、数据分析师的薪水如何?
3、根据工作经验的不同,薪酬是怎样变化的?
理解数据
接下来要理解表格中的各个字段(列名)表示什么意思:
城市:用于比较不同城市对数据分析师的需求如何
职位所属:分析以后的工作岗位
职位ID:表示职位的唯一表示,也就是每一行数据的唯一标识------用于去掉重复ID
薪水:比较不同城市、和所属领域的薪水区别
工作年限:从时间轴上对比薪资涨幅
数据准备
下载安装好FineBI后,链接数据。FineBI可以直接和数据库进行对接,实时更新数据,以往用excel统计数据的时候,一旦数据需要更新,比如做了8月份的财务报表,到了9月份时,就需要再次花费人力更新数据,十分麻烦,用FineBI就很方便。除此以外,FineBI还提供业务包功能,基于我们的分析主题新建一个业务包,把我本次分析需要用到的数据表存放在业务包里,方便查找。
然后将数据表添加到业务包中,数据表添加支持数据库表,sql数据表,excel数据表,还有自助数据集中的表,这里我把爬来的招聘数据Excel表添加到业务包中
然后将数据表添加到业务包中,数据表添加支持数据库表,sql数据表,excel数据表,还有自助数据集中的表,这里我把爬来的招聘数据Excel表添加到业务包中。
数据清洗加工
数据准备好了,下一步就是对数据进行清洗加工,去掉重复、无效的数据,拿到我们想到的数据,FineBI的处理过程十分方便,自助数据集可以对数据进行求和、平均、排序等一系列的运算
1、选择子集
业务包中添加自助数据集,只选择对数据分析有意义的字段,无意义的字段不勾选,也就是在Excel里面隐藏列。这里我们隐藏公司ID和公司全名,保留职位ID和公司简称还有薪水数据,数据实时预览,
2、脏数据清洗
浏览了以下,发现有几条记录中城市数据缺失,我们直接添加过滤条件,过滤掉空值和异常值
3、薪水上下限分割:
数据集中,因为薪水是以xxK-xxk的文本形式进行存储的,我需要用FineBI新增公式列(类似excel函数)将这些字符进行分割,方便面对薪水进行分析
薪水下限(数值):left( indexofarray ( split (薪水,"-") ,1),find( "K",INDEXOFARRAY( split(薪水,"-") ,1))-1)
薪水上限(含K字符):right ( indexofarray( split(薪水,"-") ,2),len(薪水)- find("K",indexofarray(split(薪水,"-"),2 ) ) )
薪水上限(数值):left((薪水上限(含K字符) ,find"k",薪水上限(含K字符))-1 )
这样就得到每个岗位的数值格式的薪水区间了:
4、岗位平均薪水计算
知道每个岗位的数值格式的薪水区间,我们还可以计算以下每个岗位的平均薪水,新增列:平均薪水=(薪水下限+薪水上限)/2,即可得到每个岗位的平均薪水。
数据可视化分析
数据清洗加工完毕,接下来就是数据可视化分析阶段了,用Finebi做数据可视化十分的简单,拖拖拽拽就可以自动生成图表,而在Excel里,要想作出美观的可视化,就肯定要学会数据透视表,操作过程也十分的繁杂。下面我用Finebi来展示以下数据可视化分析的过程:
1、我们先来看看在哪些城市找到数据分析师工作的机会比较大?
新建组件,将城市拖入横轴,记录数拖入纵轴,并将工作年限拖入颜色,图表就自动生成了
从表中可以看出,在北京数据分析的岗位最多,往后是上海、深圳、杭州、广州;按工作年限要求来看,3-5年的需求量最大,其次是1-3年,这说明数据分析对年轻人需求将更多。
2、看完了数据分析岗位在各城市的需求情况,我们再来看看数据分析师的薪水如何?
新建组件,将城市拖入横轴,平均薪水拖入纵轴,平均薪水进行二次计算,选择求平均值
从上面的结果可以看出,北京的数据分析师平均薪水最高,其次是深圳,上海,杭州。
3、根据工作经验的不同,薪酬是怎样变化的?
以工作年限要求行横轴,平均薪水为纵轴,分析工作年限与平均薪水的关系
从上面的分析结果可以看出,随着工作经验的增长,数据分析师的薪酬也在不断增加。
综合上面三个分析结果,我整理出来以下结论分享给了问我问题的妹子:
1)数据分析这一岗位,有大量的工作机会集中在北上广深以及新一线城市,如果将来去这些城市找工作,可以提高求职成功的条件概率。
2)从待遇上看,数据分析师留在北京,深圳发展是个不错的选择,其次是上海。
3)数据分析是个年轻的职业方向,大量的工作经验需求集中在1-5年。对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有提升自己的能力,大概以后的竞争压力会比较大。
4)随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。
FineBI个人版永久免费,感兴趣的朋友可以私信回复“数据分析”获取免费下载地址!
Python+BI分析5000条招聘数据,原来数据分析工作在这儿最好找相关推荐
- python数据分析的发展前景_Python+BI分析5000条招聘数据,原来数据分析工作在这儿最好找...
这两年的大数据热潮带火了数据分析这个职业,很多人想转行干数据分析,但是又不知道现在这个行业的求职环境和前景如何,动了心却不敢贸然行动. 前两天有个干运营的妹子找我聊天,也是问我数据分析岗位前景的问题, ...
- python爬取+BI分析5000条内衣数据,发现妹子最爱这款文胸
生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...
- python怎么分析各个时间段的数据_Python数据分析:Python对Word数据的读写
<大数据和人工智能交流>头条号向广大初学者新增C .Java .Python .Scala.javascript 等目前流行的计算机.大数据编程语言,希望大家以后关注本头条号更多的内容. ...
- 【Python】猎聘网招聘数据爬虫(Python网络爬虫课设简要)
[Python]猎聘网招聘数据爬虫(Python网络爬虫课设简要) 注: 本文仅供学习交流使用! 合肥学院-20信管-20302211009 项目文件可自行前往博客主页下载或联系作者qq(341625 ...
- 大数据分析:Java 下降,华为平均月薪高达 35K,分析 89 万招聘数据有这些发现!
Java 下降,华为平均月薪高达 35K,分析 89 万招聘数据有这些发现! 作者 | 八爪盒子 责编 | 唐小引 基于国内各主流招聘网站发布的招聘岗位数据分析,5 月共计有 89 万招募中的互联网岗 ...
- Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化
爬取Boss直聘相关的招聘数据 一.相关需求分析 1.目的 二.直聘网页结构分析 1.网页相关值的查找 2.网页的下一页规律查找 三.Python相关的第三库介绍 1.Urllib的介绍 (1)url ...
- Python股票分析系列——基础股票数据操作(二).p4
该系列视频已经搬运至bilibili: 点击查看 欢迎来到Python for Finance教程系列的第4部分.在本教程中,我们将基于Adj Close列创建烛台/ OHLC图,这将允许我介绍重新采 ...
- 企业级BI分析解决方案,解决数据应用难题
简介:近日,阿里云MaxCompute大数据计算平台联合帆软正式发布企业级BI分析解决方案,MaxCompute成为帆软FineBI与FineReport官方数据源.此次专为企业数据分析实现的产品集成 ...
- 智联招聘数据Hbase数据分析+可视化
需求: 背景描述 近年来随着IT产业的加速发展,全国各地对IT 类的人才需求也越来越多, "XHS 集团"为了明确公司在各区域的发展布局,在多个省份进行IT公司岗位 情况调研分析. ...
- 为SEO学习Python 分享7个技巧帮助你做数据分析工作
作为一名SEO专业人士,我的日常任务也在不断学习.在去年年底开始学习Python之后,我发现自己越来越多地将我所学的东西付诸实践. 这包括相当简单的任务,例如比较字数或状态码随时间的变化,以及分析包括 ...
最新文章
- Zabbix 3.4.3 使用阿里云短信服务进行报警
- Linux 文件描述符的概念及与文件流指针的关系
- mysql导入xml 工具下载_XmlToOracle(XML导入Oracle工具)下载_XmlToOracle(XML导入Oracle工具) 版本: V2.0官方版_魅蓝下载...
- 2016百度之星资格赛总结
- python new方法_Python中的__new__()方法的使用
- Python 模块EasyGui
- git常用命令常用场景
- 陆兆禧:此时此刻,非我莫属!
- 计算机应用基础模块3实操题正确答案,国开20秋计算机应用基础作业3 模块4 PowerPoint 2010实操题答案...
- ug10Java环境变量_关于UG环境变量
- Arduino UNO数据手册(新手入门)
- linux usb摄像头设备,Linux系统下USB摄像头驱动开发
- 某程序员:这辈子再也不想为谁拼刀刀了!
- [Excel]sumif函数对满足条件的单元格求和
- 2007年IT产业回顾:划时代的一年 一个变革的时代
- AMD将推出7纳米GPU Vega,专为深度学习和机器学习打造
- 【工业控制】多变量动态矩阵预测控制(DMC)【含Matlab源码 1499期】
- Windows11 安装教程(Ultraiso-制作启动盘)
- stm32的点亮led的基础知识
- 模型描边(二)—— three.js着色器法线延伸