《人民的名义》小说文本分析
又是一年毕业季,什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初,含有32万条数据(行)、19个详细招聘信息(列)的数据进行招聘信息的知识发现、挖掘。
数据部分截图如下:
需要完成的工作
1、数据预处理;
2、每个行业的招聘次数、平均工资分析;
3、学历要求与平均工资分析;
4、不同工作经验的招聘次数、平均工资分析;
5、不同职位的发展前景分析;
6、不同地域招聘次数、平均工资分析。
下面分别从以上这几方面展开分析。
1、数据预处理
(1)、读入数据并且去掉不会用到的字段(比如公司福利、Url等)。
(2)、这里需要根据读入的原始数据的工资范围简单计算平均工资,并且处理人数字段为数值型,便于后面的计算。
平均工资 = (工资最大+工资最小)/2
本来想对不同行业描述做分词处理,继而进行词云分析,发现停词后每个词频都很小,几乎都为1,词云效果很差感觉这里行业描述文本挖掘或许不合适,就放弃了。
这里还是附上文本挖掘代码,如下:
2、每个行业的招聘次数、平均工资分析
(1)、基于行业招聘次数的数据探索
简单统计不同行业的招聘次数,画出柱状图如下:
可以看出,计算机软件、互联网、IT服务行业,招聘次数总和最多。可见,在现在的互联网大潮中,计算机、互联网行业人才缺口仍然很大,但是到底工资水平怎么样呢?就需要进一步的分析了。
(2)、行业平均工资
由于行业太多,这里取招聘次数最多的前十名进行平均工资分析。这里匹配计算的平均工资定义如下:
行业平均工资 = SUM(每个行业招聘人数x平均工资)/总人数
画出的行业平均工资分布柱状图如下:
可以看出,电子技术行业平均工资最高,其次是基金与计算机硬件,可见行业人才需要与行业平均工资水平关系不大。
3、学历要求与平均工资分析
为什么很多人会去考研追求更高学历呢?因为,不同学历工资待遇是有差别的,那么这个工资差异到底体现出什么样的规律呢?
(1)、不同学历招聘频数统计
画出的柱状图如下:
大专学历招聘次数最多,学历不限与本科学历居于第二,可见现在企业对人才的需求中大专需求最多,门槛比较低。硕士、博士招聘最少,可见高学历人才需求比较少,当然或许是因为高学历人才本身就少的缘故。
(2)、不同学历平均工资分析
这里匹配计算的平均工资定义如下:
学历平均工资 = SUM(每个学历招聘人数x平均工资)/总人数
画出的学历~平均工资柱状图如下:
其它学历工资最高,这里并不清楚到底是些什么学历。但是除了这个,博士工资毋庸置疑第一,其次是硕士学历的平均工资,本科工资第三,一切都在情理之中。所以,对自己没有自信拿到满意工资的本科生,还是继续读研深造或许会改观自己的现状吧。
4、不同工作经验的招聘次数、平均工资分析
(1)、还是不同工作经验招聘次数的统计探索性分析
画出的柱状图如下:
(2)、不同经验~平均工资分析
由于招聘经验字段有26个取值,图中反应的不很清楚,取六个次数较多的进行经验~平均工资分析。这里匹配计算的平均工资定义如下:
经验平均工资 = SUM(不同经验招聘人数x平均工资)/总人数
画出的经验~平均工资柱状图如下:
可以看出5-10年经验平均工资最高,其次是3-5年,经验与工资确实成正相关。其实,不管做什么事情,都是一种经验的积累。
5、不同职位的发展前景统计分析
这里通过对不同职位的招聘人数的简单统计,可以看出哪些职位类型是当前热门职位,只是取出招聘次数最多的前10名进行统计分析。
画出的柱状图如下:
由于这份数据对职位分的比较细,第一名是“软件工程师”,后面好像都是与软件有关,可见现在“软件”行业确实需要大量人才。
6、不同地域招聘次数、平均工资分析。
良禽择木而栖,找工作时地域选择确实是个问题。下面对数据中总共的33个城市进行招聘次数~平均工资的统计分析。
(1)、不同地域招聘次数的统计探索分析
统一将所有地域标准化到【市级】地域单位,比如不管是北京的朝阳区还是什么区,都统一标准化为北京这个市级单位。
画出的柱状图如下:
作为神都的北京确实对人才需求很大,把其它城市远远的甩在了后面。上海、深圳、武汉、成都、杭州呈现逐渐梯度下降,对人才需求也很大。北京虽然人才需求大,但是北京的生活压力等还是比较大的。总而言之,地域选择还是要根据实际情况慎重考虑,不可盲目跟风,小看了社会这个大舞台。
(2)、不同地域平均工资
通过上面的分析我们已经知道,北京的人才需求最大,那么工资水平怎么样呢?当然了,如果你是大神,走到哪里,你都是人才。哈哈!
这里匹配计算的平均工资定义如下:
地域平均工资 = SUM(不同地域招聘人数x平均工资)/总人数
画出的地域平均工资柱状图如下:
可以看出北京、上海、佛山地区平均工资高,上海平均工资最高,确实合乎情理。但是,发现整体平均工资水平好像差别并不大,这或许与数据抓取的城市都是发达大城市或者省会大城市有关。这样来看,又是可以理解的了。
十年寒窗,未来?每个人都想找到心仪的工作,俗话说:只要是金子,到哪里都会发光!在这些个炎热、躁动的毕业季,最需要的恰恰是冷静。
点击【阅读原文】有惊喜!
《人民的名义》小说文本分析相关推荐
- 人民的名义》小说文本分析
你只要不干坏事,就没人能坏你的事. --<人民的名义>经典语录 <人民的名义>,听说很好看.一向不喜欢看电视的我还是想了解一下这部剧,可是又不想花时间去看剧,怎么办呢?我就考虑 ...
- 《人民的名义》评论分析
近日,反腐大剧<人民的名义>讲述了反腐天团与位高权重的贪腐分子之间斗智斗勇的故事.一经播出,响应非常强烈,在此,对与<人民的名义>网友的评论做一分析.(<人民的名义> ...
- 《人民的名义》---简单的文本分析
我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧<人民的名义>进行分词,并对它进行一些简单的文本分析. 一.jieba模块中常用的方法说明(githu ...
- 《人民的名义》如何圈粉“90后”| 大数据舆情分析
相信最近大家的朋友圈被一部红透了大半个中国,收视率和口碑同步爆棚的神剧霸屏了,没错,就是<人民的名义>,无论是涉及到副国级领导干部的反腐尺度,还是不断被网民热议的"汉东男子天团& ...
- 何洋开讲丨深度分析!《人民的名义》样片泄露内幕
<人民的名义>这部长达50多集.引爆全民追剧风潮的"神剧"终于迎来收尾.我很少看电视剧,但这部剧编剧走心.制作精良.戏骨云集,让包括我在内的观众们欲罢不能.但就在剧情进 ...
- python实现对小说的文本分析(人物关系图,人物词云等)
文本分析 0.效果图 这里有些"二人"."不会"等词语没用筛选掉,手动筛选即可. 1.整体思路: 调用的库:jieba,matplotlib,networkx, ...
- NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型
<人民的名义>的小说原文下载地址 https://github.com/jxq0816/algorithm-model/blob/master/word2vec-gensim/in_the ...
- 小虎对《人民的名义》小说人物人名研究V0.1
小虎对<人民的名义>小说人物人名研究V0.1 每篇小说的作者都会小说里的人物的名字,下过功夫,做过研究的,深思熟虑,才给对应的人物取个名字,有寓意,有所指,跟人物的性格,命运紧紧 ...
- 以程序员的名义,分析 “人民的名义”
我自小就惧怕吵架,觉得人不该像公鸡,脸红脖子粗的掐架特别不好,人就该斯斯文文的. 这让我爱上了官场剧,不论是古代的官场剧,还是当代的官场剧,都喜欢.官员们聊起天来不动声色,暗藏机锋,生死对决都是在谈笑 ...
最新文章
- LCS(最长公共子串)系列问题
- 目前计算机辅助数控编程的方法,数控编程试题(附自己整理的答案)
- android+3.0+java8_Android Retrofit2.0+RxJava3.0 基本使用
- c语言之计算两个数的大数
- linux下的FTP服务配置
- ToDictionary
- UI设计干货素材|教你正确使用浮动按钮
- webpack的五个核心概念---webpack工作笔记002
- bash内部命令-1
- svnadmin命令[转]
- 用靠谱助手多开玩梦幻西游手游
- ServerSocket与Socket入门详解
- 互联网广告行业(01)------ 初识了解DSP、SSP、ADX
- Qt:Windows编程—Qt实现注册表启动项管理
- CHtmlView当前浏览器打开新窗口
- 一览生信分析的各种工作环境—Linux子系统、双系统、虚拟机和Docker
- Android拦截黑名单(简易版)
- 首汽约车携手AWS,发布出行行业首个定制智能语音解决方案
- Docker学习之基础篇
- 滴水逆向学习总结第二期