『运筹OR帷幄』原创

作者:周岩

由于近些年互联网和计算机的发展,数据对于各各行业来说是一块新的“金矿”,再加上近两年人工智能的兴起,数据的重要性更是越加的凸显,因此一些新的职业比如数据挖掘工程师,算法工程师等成为一个新兴的行业。那么经过了这几年的发展,这个行业在前景是怎样的呢?既然是数据行业,我们就用数据来说话吧。

首先我们来找一些数据的来源,对于我们普通人来说,最好的数据源自然是数据开源网站kaggle (https://www.kaggle.com/),那么我们就找了一个比较符合我们目标的数据集(https://www.kaggle.com/kaggle/kaggle-survey-2017)。这个数据集包含了很多信息,这里仅对其中的薪资分布做重点分析,其他更有趣的信息,各位同学可以自行参考本文进一步挖掘。

一、使用的工具及数据的处理

数据可以从上述提供的链接下载,本文主要通过python来进行数据的处理,主要的工具使用了jupyter,数据包包含python中的科学计算工具:numpy, pandas, matplotlib, seaborn, plotly等。

首先我们来分析一下数据,由于数据不是很大,所以可以用最基本的Excel打开,其中最主要的文件是"multipleChoiceResponses.csv’和"conversionRates.csv’两个文件,前者是主要的数据文件,后者是当时的一个货币汇率表,由于我们需要进行薪资对比,所以需要将各个国家的货币统一转换为美元(USD)。

那么接下来首先将数据解压后上传到jupyter中,然后引入必要的包并导入数据:

由于数据中有一些信息我们暂时用不到,同时还有汇率数据需要整合,所以先做一下数据的筛选和拼接:

这其中需要性别,国籍,年龄,全职/兼职,职业,学位,年薪等。然后我们主要对全职的年薪感兴趣,那么我们筛选这一部分数据出来,同时去掉一些信息空值的数据。

下一步我们观察到数据中记录的薪资是以字符串形式记录的,那么我接下来将字符串转换为数字并按照汇率数据统一转换为美元。

这里主要的数据前期处理工作已经可以结束了,但是在画图的时候发现中国有很多个名称,我们需要将相关的数据合并,尤其需要注意的是,中国台湾也应该算在中国范围内(特殊强调)。

接下来我们来看一下处理好的数据:

由于数据中有一些信息我们暂时用不到,同时还有汇率数据需要整合,所以先做一下数据的筛选和拼接:

这其中需要性别,国籍,年龄,全职/兼职,职业,学位,年薪等。然后我们主要对全职的年薪感兴趣,那么我们筛选这一部分数据出来,同时去掉一些信息空值的数据。

下一步我们观察到数据中记录的薪资是以字符串形式记录的,那么我接下来将字符串转换为数字并按照汇率数据统一转换为美元。

这里主要的数据前期处理工作已经可以结束了,但是在画图的时候发现中国有很多个名称,我们需要将相关的数据合并,尤其需要注意的是,中国台湾也应该算在中国范围内(特殊强调)。

接下来我们来看一下处理好的数据:

data_selected.head()

可以看到数据已经规整的处理好了,那么数据的整体信息是什么样的呢?

数据一共筛选出了3774条,一共有50个国家,其中人数最多的国家仍然是美国,年龄分布从0-100(这个年龄没有做严格的筛选,肯定是有问题的)。

二、画图与数据分析

首先导入一些需要要用的包:

代码示例

A . 女性能占半边天?

先对性别的分布做一个统计:

可以明显的看到对于数据行列来说,男性仍然占据着一个比较主导的地位,当然还有一些其他的性别,除了人为的填写错误因素,那么我们真的需要承认现在的世界真是一个多元化的世界。

B . 一骑绝尘的美利坚

接下来统计一下各个国家的人员数量,由于数量过多,仅对前15名进行画图:

经过这次统计,我们发现人数最多的的国家是美国,其次是印度和英国。不过这个结论还是比较符合我们认知的,不过奇怪的是英国和法国竟然人数在中国之上,但是也从另一个角度反映出,我们国家的数据行业的发展还处于未成熟的阶段,国内的人才缺口应该还是很大的。

为了更加直观一些,我们用地图来呈现一下:

C . 中坚力量还是年轻人

那么各个年龄段是如何分布的呢:

可以发现这个行业仍然是年轻人的主战场,主要分布在30-40岁的范围,不过这也不奇怪,因为数据分析的行业是一个新兴行业,年轻人更容易进入行业中,相信随着行业的发展,年龄分布的中心有可能会向着40岁左右偏移,那时应该是更加稳定的行业年龄结构。

D . 薪资起点高,差异化明显

接下来我们来分析我们这次重头戏,首先来对所有人员的薪资做一个整体的分布图:

可以看到总体的薪资还是十分可观,最高可以到$30000,不过大部分仍然是分布在低位的,这个差距从图上看还是很大的,这不排除和不同国家的基本情况有关。一般来说发达国家的薪资水平要高于发展中国家,那么是那些国家的水平高,那些国家的水平低呢?

从图中可以用看到美国是人数最多也是薪资最高的国家,说明美国在数据科学领域仍然是当之无愧的老大。可以看到相比之下,中国和印度这些国家虽然人数上很多,但是整体的薪资却十分不尽如人意。而一些欧洲的发达国家虽然人数不多但是薪资确实很让人欣慰的。

那么结合性别我们再来看看分布情况:

可以看从薪资水平上,性别差别并不大,但是一些高工资部分还是男性主导,这有可能有一些主要管理岗位上还是男性居多,当然这只是一个猜测。

E . 最吃香的还是运筹学

接下来,数据科学领域有很多职业,从这些职业上来看薪资是怎样的呢:

可以看到运筹学从业者占据了最高的位置,数据科学家仅位居第二,建模工程师第三,软件开发第四。总体上看还是算法要比工程赚钱多。

最后我们结合各个国家,不同职位的人数是怎么样的呢:

可以看到各个国家的分布结构还是差别很大的,美国是数据科学家最多,而中国则是机器学习工程师最多,其他国家的分布大致与美国相似,看来中国对人工智能的重视还是要远高于其他国家的。

进一步用每个职位的人数的比例来更直观的观察一下各个国家的产业结构:

那么通过这个图可以更加明显的展示每个职位的比重,以每个国家排名前3的职位来看,虽然Data scientist作为大部分国家的主要职位,但是法国和西班牙是占比最多的国家,分别为43.7%和43%;而排名第二的多数是Data Analysis、Scientist Researcher,但是俄罗斯为Machine Learning engineer;排名第三的还出现了以印度为代表的Softwareengineer。从初步的分析结果上看基本符合各个国家的特点,比如在印度和巴西这样的国家里,软件工程一直占有比较大的比重。有一个值得注意的是,印度的机器学习排在第四位,那么可见亚洲国家对于机器学习比较重视,而欧美国家机器学习普遍偏低。

参考文献

1. https://www.kaggle.com/rounakbanik/data-science-faq

2. https://www.kaggle.com/ash316/novice-to-grandmaster

3.https://www.kaggle.com/hakkisimsek/plotly-tutorial-1

—— 完 ——

温馨提示

如何用python计算工资-手把手用Python教你分析运筹学薪资状况相关推荐

  1. python计算工资_编写Python代码计算工资总额,包括Overtim

    对我来说,我写了一些看起来很完美的代码来计算加班时间. 但库塞拉一直告诉我我错了.有人能看看这个告诉我,我到底做错了什么吗? 我想自己找到解决办法,我已经试过了,但我不知道怎么了!我相信每个人(除了我 ...

  2. python计算工资编程-免费直播 | 编程小白如何通过学习Python获得超高工资

    从2020年人社部发布的新兴的职业中,其中有多个岗位跟AI.人工智能和大数据相关,从这就看的出来国家对这个行业重视.那么大家都知道,目前最人们的编程语言Python就是从事这个行业的首选编程语言,那么 ...

  3. 用python计算工资工资_python税后工资计算器

    介绍 重新实现上一个挑战中的个税计算器,可以计算并处理多人的工资并打印税后工资. 项目需求改变: 输出税后工资 计算过程需要扣除社会保险费用 支持多人同时计算工资 打印税后工资列表 个税计算公式: 应 ...

  4. 用python计算工资工资_python练习-工资计算器

    python练习-工资计算器 源代码如下: #! /usr/bin/env python def get_user_salary_sum(): salary = (raw_input("Pl ...

  5. python计算工资编程-Python工程师薪水居然这么高

    Python诞生于1989年,**个公开版本于1991年问世.现如今,随着国内外互联网科技时代飞速的发展和进步,目前2017年作为人工智能**编程语言,Python崛起势不可挡.Python工程师薪水 ...

  6. Python|计算工资

    欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 欢迎加入团队圈子!与作者面对面!直接点击! 问题描述 某公司员 ...

  7. python工程师工资一般多少-Python工程师的薪资到底有多高

    达内教育就业专家为您解读:Python工程师的薪资如何?怎么样学习python呢,python工程师的薪资的到底有多少呢? 谁会成为AI 和大数据时代的第一开发语言?这已是一个无需争论的问题.如果说三 ...

  8. 用python计算圆周率_用python计算圆周率π

    原博文 2020-03-22 15:32 − 用python计算圆周率π 一.要求 1.要起义能计算到圆周率后面越多位越好. 2.用进度条显示计算的进度,能给出越多种进度条越好. 3.要求给出圆周率π ...

  9. php和python哪个工资高-学python和php哪个前景好

    众所周知,it技术是日新月异,没有哪一门技术是经久不衰的,都在不断的迭代变化,所以it从业者如果要想有更加稳定的发展空间,必须不断的提升自己,保持一个永久学习的心态,最近有学习者在问刚入门的新手php ...

最新文章

  1. Android学习系列(10)--App列表之拖拽ListView(上)
  2. 视觉Transformer快速入门指南!
  3. 分享一个有趣的学习方法,欢迎一起探讨如何提高学习兴趣作者:1-2-3 来源:博客园 发布时间:2009-03-09 16:20 阅读:2820 次 原文链接 [收藏]
  4. SAP OData:How is note $expand being implemented
  5. [css] 你认为sass和less的最大区别是什么呢?你喜欢哪个?为什么?
  6. UVA-10791 数学
  7. 诺顿无法启动扫描,扫描引擎返回错误0x20000058错误
  8. WEB开发新势力——Openparty
  9. 64位x86微服务器芯片,卖贝商城告诉你微服务器替代x86服务器的利与弊
  10. U盘里面的文件夹变成文件也打不开文件的寻回方法
  11. 终于有人把XGBoost 和 LightGBM 讲明白了,项目中最主流的集成算法!
  12. php获取客户端ip端口,Phpwind获取用户真实IP
  13. mysql求分位数_给Mysql加自定义函数计算百分位数(percentile)。
  14. NAS折腾系列二:番外篇之瘦客户机+DoraOS实现远程办公
  15. java hbase连接kerberos的几个常见错误
  16. 单代号网络图计算例题_双代号时标网络图用Excel画
  17. tensorflow.keras入门1
  18. 新版ECharts实现“暂无数据”的完美解决方案
  19. Python快速上手系列--列表--详解篇
  20. 基于FPGA的呼叫设备verilog开发

热门文章

  1. [OC Foundation框架 - 9] NSMutableArray
  2. 【转载】关于幂律分布的一个笔记
  3. Ocelot简易教程(一)之Ocelot是什么
  4. CentOS7安装bind域名服务
  5. 【Windows】如何判断当前鼠标是否按下左键或右键
  6. python之simplejson,Python版的简单、 快速、 可扩展 JSON 编码器/解码器
  7. python 迭代器
  8. 自学python需要安装什么软件-零基础入门Python怎么学习?老男孩python用什么软件...
  9. python网络爬虫开发从入门到精通pdf-Python 3网络爬虫开发实战PDF高清完整版下载...
  10. python 仪表盘-python仪表盘