又是一年毕业季,什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初,含有32万条数据(行)、19个详细招聘信息(列)的数据进行招聘信息的知识发现、挖掘。

数据部分截图如下:

需要完成的工作

1、数据预处理;

2、每个行业的招聘次数、平均工资分析;

3、学历要求与平均工资分析;

4、不同工作经验的招聘次数、平均工资分析;

5、不同职位的发展前景分析;

6、不同地域招聘次数、平均工资分析。

下面分别从以上这几方面展开分析。

1、数据预处理

(1)、读入数据并且去掉不会用到的字段(比如公司福利、Url等)。

(2)、这里需要根据读入的原始数据的工资范围简单计算平均工资,并且处理人数字段为数值型,便于后面的计算。

平均工资 = (工资最大+工资最小)/2

本来想对不同行业描述做分词处理,继而进行词云分析,发现停词后每个词频都很小,几乎都为1,词云效果很差感觉这里行业描述文本挖掘或许不合适,就放弃了。

这里还是附上文本挖掘代码,如下:

2、每个行业的招聘次数、平均工资分析

(1)、基于行业招聘次数的数据探索

简单统计不同行业的招聘次数,画出柱状图如下:

可以看出,计算机软件、互联网、IT服务行业,招聘次数总和最多。可见,在现在的互联网大潮中,计算机、互联网行业人才缺口仍然很大,但是到底工资水平怎么样呢?就需要进一步的分析了。

(2)、行业平均工资

由于行业太多,这里取招聘次数最多的前十名进行平均工资分析。这里匹配计算的平均工资定义如下:

行业平均工资 = SUM(每个行业招聘人数x平均工资)/总人数

画出的行业平均工资分布柱状图如下:

可以看出,电子技术行业平均工资最高,其次是基金与计算机硬件,可见行业人才需要与行业平均工资水平关系不大。

3、学历要求与平均工资分析

为什么很多人会去考研追求更高学历呢?因为,不同学历工资待遇是有差别的,那么这个工资差异到底体现出什么样的规律呢?

(1)、不同学历招聘频数统计

画出的柱状图如下:

大专学历招聘次数最多,学历不限与本科学历居于第二,可见现在企业对人才的需求中大专需求最多,门槛比较低。硕士、博士招聘最少,可见高学历人才需求比较少,当然或许是因为高学历人才本身就少的缘故。

(2)、不同学历平均工资分析

这里匹配计算的平均工资定义如下:

学历平均工资 = SUM(每个学历招聘人数x平均工资)/总人数

画出的学历~平均工资柱状图如下:

其它学历工资最高,这里并不清楚到底是些什么学历。但是除了这个,博士工资毋庸置疑第一,其次是硕士学历的平均工资,本科工资第三,一切都在情理之中。所以,对自己没有自信拿到满意工资的本科生,还是继续读研深造或许会改观自己的现状吧。

4、不同工作经验的招聘次数、平均工资分析

(1)、还是不同工作经验招聘次数的统计探索性分析

画出的柱状图如下:

(2)、不同经验~平均工资分析

由于招聘经验字段有26个取值,图中反应的不很清楚,取六个次数较多的进行经验~平均工资分析。这里匹配计算的平均工资定义如下:

经验平均工资 = SUM(不同经验招聘人数x平均工资)/总人数

画出的经验~平均工资柱状图如下:

可以看出5-10年经验平均工资最高,其次是3-5年,经验与工资确实成正相关。其实,不管做什么事情,都是一种经验的积累。

5、不同职位的发展前景统计分析

这里通过对不同职位的招聘人数的简单统计,可以看出哪些职位类型是当前热门职位,只是取出招聘次数最多的前10名进行统计分析。

画出的柱状图如下:

由于这份数据对职位分的比较细,第一名是“软件工程师”,后面好像都是与软件有关,可见现在“软件”行业确实需要大量人才。

6、不同地域招聘次数、平均工资分析。

良禽择木而栖,找工作时地域选择确实是个问题。下面对数据中总共的33个城市进行招聘次数~平均工资的统计分析。

(1)、不同地域招聘次数的统计探索分析

统一将所有地域标准化到【市级】地域单位,比如不管是北京的朝阳区还是什么区,都统一标准化为北京这个市级单位。

画出的柱状图如下:

作为神都的北京确实对人才需求很大,把其它城市远远的甩在了后面。上海、深圳、武汉、成都、杭州呈现逐渐梯度下降,对人才需求也很大。北京虽然人才需求大,但是北京的生活压力等还是比较大的。总而言之,地域选择还是要根据实际情况慎重考虑,不可盲目跟风,小看了社会这个大舞台。

(2)、不同地域平均工资

通过上面的分析我们已经知道,北京的人才需求最大,那么工资水平怎么样呢?当然了,如果你是大神,走到哪里,你都是人才。哈哈!

这里匹配计算的平均工资定义如下:

地域平均工资 = SUM(不同地域招聘人数x平均工资)/总人数

画出的地域平均工资柱状图如下:

可以看出北京、上海、佛山地区平均工资高,上海平均工资最高,确实合乎情理。但是,发现整体平均工资水平好像差别并不大,这或许与数据抓取的城市都是发达大城市或者省会大城市有关。这样来看,又是可以理解的了。

十年寒窗,未来?每个人都想找到心仪的工作,俗话说:只要是金子,到哪里都会发光!在这些个炎热、躁动的毕业季,最需要的恰恰是冷静。

点击【阅读原文】有惊喜!

《人民的名义》小说文本分析相关推荐

  1. 人民的名义》小说文本分析

    你只要不干坏事,就没人能坏你的事. --<人民的名义>经典语录 <人民的名义>,听说很好看.一向不喜欢看电视的我还是想了解一下这部剧,可是又不想花时间去看剧,怎么办呢?我就考虑 ...

  2. 《人民的名义》评论分析

    近日,反腐大剧<人民的名义>讲述了反腐天团与位高权重的贪腐分子之间斗智斗勇的故事.一经播出,响应非常强烈,在此,对与<人民的名义>网友的评论做一分析.(<人民的名义> ...

  3. 《人民的名义》---简单的文本分析

    我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧<人民的名义>进行分词,并对它进行一些简单的文本分析. 一.jieba模块中常用的方法说明(githu ...

  4. 《人民的名义》如何圈粉“90后”| 大数据舆情分析

    相信最近大家的朋友圈被一部红透了大半个中国,收视率和口碑同步爆棚的神剧霸屏了,没错,就是<人民的名义>,无论是涉及到副国级领导干部的反腐尺度,还是不断被网民热议的"汉东男子天团& ...

  5. 何洋开讲丨深度分析!《人民的名义》样片泄露内幕

    <人民的名义>这部长达50多集.引爆全民追剧风潮的"神剧"终于迎来收尾.我很少看电视剧,但这部剧编剧走心.制作精良.戏骨云集,让包括我在内的观众们欲罢不能.但就在剧情进 ...

  6. python实现对小说的文本分析(人物关系图,人物词云等)

    文本分析 0.效果图 这里有些"二人"."不会"等词语没用筛选掉,手动筛选即可. 1.整体思路: 调用的库:jieba,matplotlib,networkx, ...

  7. NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型

    <人民的名义>的小说原文下载地址 https://github.com/jxq0816/algorithm-model/blob/master/word2vec-gensim/in_the ...

  8. 小虎对《人民的名义》小说人物人名研究V0.1

    小虎对<人民的名义>小说人物人名研究V0.1      每篇小说的作者都会小说里的人物的名字,下过功夫,做过研究的,深思熟虑,才给对应的人物取个名字,有寓意,有所指,跟人物的性格,命运紧紧 ...

  9. 以程序员的名义,分析 “人民的名义”

    我自小就惧怕吵架,觉得人不该像公鸡,脸红脖子粗的掐架特别不好,人就该斯斯文文的. 这让我爱上了官场剧,不论是古代的官场剧,还是当代的官场剧,都喜欢.官员们聊起天来不动声色,暗藏机锋,生死对决都是在谈笑 ...

最新文章

  1. LCS(最长公共子串)系列问题
  2. 目前计算机辅助数控编程的方法,数控编程试题(附自己整理的答案)
  3. android+3.0+java8_Android Retrofit2.0+RxJava3.0 基本使用
  4. c语言之计算两个数的大数
  5. linux下的FTP服务配置
  6. ToDictionary
  7. UI设计干货素材|教你正确使用浮动按钮
  8. webpack的五个核心概念---webpack工作笔记002
  9. bash内部命令-1
  10. svnadmin命令[转]
  11. 用靠谱助手多开玩梦幻西游手游
  12. ServerSocket与Socket入门详解
  13. 互联网广告行业(01)------ 初识了解DSP、SSP、ADX
  14. Qt:Windows编程—Qt实现注册表启动项管理
  15. CHtmlView当前浏览器打开新窗口
  16. 一览生信分析的各种工作环境—Linux子系统、双系统、虚拟机和Docker
  17. Android拦截黑名单(简易版)
  18. 首汽约车携手AWS,发布出行行业首个定制智能语音解决方案
  19. Docker学习之基础篇
  20. 滴水逆向学习总结第二期

热门文章

  1. iMatrix平台核心功能—Portal 介绍
  2. 计算机毕业设计ssm大学生科技活动报名系统2h1ir系统+程序+源码+lw+远程部署
  3. arcgis制图 ——羽化效果
  4. Stack的概念和算法应用
  5. iOS 模仿系统的抖动动画
  6. unity(VR方向)实习生面试
  7. 简述 Linux DRM 架构
  8. springboot+小程序老年人健康保障管理系统毕业设计源码302303
  9. angularjs2.x 密码隐藏显示的实例
  10. 如何着手写一篇医学综述?