如何使用爬虫分析Python 岗位招聘情况

Life is short, you need Python。Python 是一门很优雅的语言,用着挺舒服的。所以就在想,现在的 Python 开发的岗位招聘,公司们需要什么样的人才?要有什么样的技能?以及对应的市场如何?

所以,我又有了一个大胆的想法。

爬取了前程无忧上 Python 关键字的招聘岗位,地区锁定在中国四个一线城市,北上深广。选取 top650 条招聘岗位带 Python 关键字的招聘信息进行数据分析。

岗位分布

650 条招聘信息中,各城市岗位数量分布如下图。

job_1.png

上海 228 是最多的,北京 202 排在第二,两者都超过了 200,深圳和广州就和上海北京差得有点多了,分别只有 115 和 91,另外还有 14 个是异地招聘的。当然数据只是针对这前 650 条数据而言!不过总体上也差不多,后面的招聘信息都只是在岗位要求里提到 Python 而已,并没有专门招聘 Python 开发者。

职位要求

提取了所有的职位要求,进行分词统计,清理没意义的词,统一英文字符,如 Python 和 python 不区分大小。

提取前 50 个中文词汇以及出现次数开发,2100

熟悉,1842

经验,1268

工程师,897

工作,895

职位,842

能力,806

优先,755

描述,753

软件,682

技术,677

负责,660

职能,658

类别,654

设计,562

系统,559

要求,549

相关,542

使用,529

良好,521

以上,502

框架,492

数据库,491

项目,429

团队,424

了解,398

数据,387

产品,352

熟练,349

精通,331

公司,321

任职,313

进行,311

编程,309

平台,306

学习,301

语言,300

具备,300

岗位职责,296

沟通,292

代码,284

互联网,280

具有,269

参与,263

分析,262

维护,253

优化,239

编写,235

爬虫,233

学历,230

文档,226

合作,219

软件开发,218

高级,213

常用,212

测试,205

需求,205

完成,200

这个词频排序挺有趣的,要来好好研究一下

(开发,2100)(熟悉,1842)(经验,1268),这是最多的三个。熟悉其实也就是相当于有经验了。表示程度上的词也是频频出现(熟悉,1842)(良好,521)(熟练,349)(精通,331)。其实我一直不太理解精通这个词,什么程度上的熟练才能称为精通。个人感觉应该对精通这个词怀有敬畏之心。

(团队,424)(参与,263)(合作,219)(沟通,292)(协作,108),这个更多的是强调团队开发,参与到团队开发以及合作的重要性,毕竟现在的项目的规模基本上已经大到不是一个人就能完成的。顺便提一下 Git 出现了刚好 100 次。

(分析,262)(维护,253)(优化,239),这三个词应该就是对个人能力的综合描述了,具有分析问题的能力,维护和优化项目的能力,一个成熟的项目后期的维护和优化是很重要的。

看看没排进 top50 的其他词汇

(专业,199)(架构,173)(研发,170),这几个词看起来就厉害了,毕竟架构这个不是随便就能搞搞。

(爬虫,233)(抓取,140)(爬取,28)(正则表达式,31),刚需刚需!!!

(独立,153)(责任心,123)(强烈,69)(踏实,26)(抗压,17)(认真,26)(热爱,53)(意识,78)(逻辑,58)这应该都是所要求的品质和能力了吧。

(数据结构,106)(算法,198)(设计模式,33)回忆起了被《数据结构》和《算法导论》统治的恐惧吗?

(分布式,97)(分布式系统,29)(分布式计算,7)用心感受一下就行了。

(开源,112),(Github,29)这个也可以看出公司对开源的这方面的重视了,这是一种学习能力的体现,也是对程序和代码的热爱。了解这个也能大概证明自己不是一个只会闭门造车的人。

接着来看一下英文词汇,统计了 top20 的情况,看看作为一个 Python 开发者还需要什么技能,好帮助我们点亮自己的技能树。

job_3.png

毫无疑问,Python 遥遥领先,这是必备的。比较靠前的有 Linux, Django, Web, MySql, Redis。Web 也是 Python 很火的一个领域,相对应的Django, Flask, Tornado 这样的 Web 框架才会得到这样的重视。Linux 这个也是刚需阿,虽然我一直在 Windows 下开发 Python,但我也挺喜欢 Linux 的,没事也折腾折腾。

前端的三剑客 HTML, CSS, JavaScript 也赫然在列,说到底还是 Web 的原因。

数据库的也出现了三个,数据库是每个程序开发人员都应该掌握的技能,毕竟数据最优的存储方式是放在数据库里。

API 这个词提醒着我们要多看文档,这个其实也就涉及到英语阅读的问题,Python 有着一个很棒的社区,很多优秀的类库,大部分的类库都有详细的文档,而大多数都是英文的。所以拥有一定的英语阅读能力是非常重要的,不要指望所有库类都能有人给自己翻译中文文档。

所有词语前 200 生成词云

worldcloud.jpg

一直觉得词云还是得黑色背景视觉冲击更大一点。

职位情况

然后对职位进行分析,这个问题让我头可疼可疼了呢,因为没有一个规范,导致招聘信息上的职位写的是各式各样,举个例子吧。Python 高级开发工程师和高级 Python 开发工程师是一个意思吧。Python 开发工程师,python 开发工程师,PYTHON 工程师这三是一个概念吧。有的甚至写着 Python 攻城师???以为自己萌萌哒??? 这样统计起来也比较麻烦,找不到好办法,只能先进行词频统计,然后剩下的再进行手动归类。最终被我归为 20 个类别。

job_4.png

在爬虫和数据分析这块还是有一定的市场的,开发工程师是总的一个范称吧,这个有特别要求高级和中级的。听说大数据现在也挺火的?

薪酬情况

下面来谈谈对应的薪酬情况,在这 650 条信息中,有 9 条是没具体提到工资的,另外还有 6 条是按天算工资的,不过这个是针对实习生的。,Python开发工程师,北京

,Python开发工程师,上海-长宁区

,高级软件开发工程师(C++/Python)_互联网金融项目,深圳-福田区

,python高级数据开发工程师(阿基米德),上海

,阿里移动-Python开发工程师,广州

,"Software

,服务端研发工程师-Python(万得子公司),上海

,Python研发工程师(北京),北京

,HY2-监控系统开发工程师-Python(深圳),深圳

248元/天,python爬虫实习生,上海-杨浦区

150元/天,"实习生(Java, Python)",上海-徐汇区

300元/天,Python web开发实习生,上海-长宁区

250元/天,***IT编程中小学讲师助理(C++/Python方向),上海-杨浦区

120元/天,Python/Java实习生,北京-朝阳区

120元/天,Python 数据开发实习生,上海-徐汇区

除去这 15 条,在剩下的 635 条里,我们来进行具体讨论。

工资的单位有 万/月,万/年,千/月 三种,而且所写明的工资是一个范围,如 1.2-1.5 万/月,10-20 万/年。这让我没办法统计,因为这不是一个数,是一个范围而且这是一个字符串。

最后,我按一个具体的比例处理所有的工资情况。[x, y] 为其范围,取 x + (y - x) * 0.4 的值。拿 1.0-1.5 万/月来说就是取其范围的差(1.5 - 1.0)= 0.5,来乘以一个比值 0.4(为什么是 0.4 呢,这个是我个人估计的,毕竟我还没参加过工作。因为刚开始工作可能就是底薪,后来才慢慢增上去的。就假设认为均值应该是这个)最后得到 1.0 + 0.2 = 1.2,1.2 就是所取的一个权重,就当是该岗位的工资。将处理完的数据存进数据库。

先来看看总体的情况

job_2.png

大体上呈现一个先升后降的趋势,[1.1 - 1.5] 万/月是最多的一个范围,> 2.5 万/月的也还不错,有 26 个招聘职位。

看看各个城市的具体情况。

北京

beijing.png

上海

shanghai.png

深圳

shenzhen.png

广州

guangzhou.png

从整体来看北京的待遇最好,其次是上海,接下来才是深圳和广州,真的符合北上深广排名???

因为各个城市的总的岗位数量不同,所以不能单从哪个范围的数量大而且比较,那样没多大意义。所以应该看比例。可以明显的看到 在 2.1 - 2.5 以及 > 2.5 这两种颜色块上,北京和上面所占的比例是要高于深圳和广州的。而在 0 - 1.0 这个颜色块上,广州是最大的,几乎都接近一半了。比较这四个后,很容得出北京的结构是最合理的,底层的偏少,上层的偏多,中层占了绝大部分。广州反之。

还有一个异地招聘的

other.png

薪酬和职位对应情况

再来看看高薪酬对应的是什么职位。

总体 top10SalaryLocationPost4.1北京-朝阳区Linux C++/Python高级研发工程师

3.6深圳高级python工程师

3.5深圳-南山区python后台开发工程师(10001263)

3.5异地招聘Python工程师(代招)

3.4上海-浦东新区Python开发工程师

3.3北京-海淀区python开发工程师(J10904)

3.2北京-海淀区python课程经理

3.2上海-杨浦区资深Python后端开发/架构师

3.1上海-浦东新区Python工程师

2.9北京Python高级软件工程师

北京 top10SalaryLocationPost4.1北京-朝阳区Linux C++/Python高级研发工程师

3.3北京-海淀区python开发工程师(J10904)

3.2北京-海淀区python课程经理

2.9北京Python高级软件工程师

2.8北京-海淀区技术工程部-python开发工程师-北京-02155

2.8北京-海淀区Python开发工程师

2.7北京-东城区移动平台后端高级开发工程师(Go/Python)

2.7北京Python工程师(网络爬虫方向)

2.7北京Python高级开发工程师

2.7北京python开发工程师-KingFile

上海 top10SalaryLocationPost3.4上海-浦东新区Python开发工程师

3.2上海-杨浦区资深Python后端开发/架构师

3.1上海-浦东新区Python工程师

2.8上海运维开发工程师(Python)

2.7上海-黄浦区Python高级开发工程师

2.7上海-松江区高级Python开发工程师

2.7上海-黄浦区资深软件工程师 (Python)

2.7上海-黄浦区Python开发培训讲师(全职或兼职)

2.5上海-杨浦区Python爬虫开发工程师

2.5上海-长宁区Python开发工程师

深圳 top10SalaryLocationPost3.6深圳高级python工程师

3.5深圳-南山区python后台开发工程师(10001263)

2.2深圳-龙岗区python工程师

2.2深圳-南山区Python高级开发工程师

2.1深圳-南山区Python开发工程师

2.0深圳Python

1.9深圳-南山区资深Python开发工程师

1.9深圳-南山区Python 软件开发工程师

1.9深圳-罗湖区Python开发工程师

1.9深圳-南山区Python开发工程师

广州 top10SalaryLocationPost2.7广州-荔湾区高级python开发工程师(12952)

2.4广州后端开发C++/PYTHON(主程级别)

2.4广州-天河区资深Python工程师

2.1广州-海珠区Python开发工程师

1.9广州-海珠区后端开发工程师(Python方向)

1.9广州python爬虫开发工程师

1.7广州Python高级工程师

1.7广州Python开发工程师

1.7广州-天河区Python讲师

1.7广州-天河区python/c工程师

北京确实强,实力碾压广州,广州的 top1 在总体中排名第 24。

在各自的薪酬 top10 中,高级这个词出现频繁,资深也有几个。物以稀为贵,有技术不怕没人招。能达到这么高的工资的,基本上也都应该要有多年的开发经验了吧,不然从何而谈资深。这个是时间累积下来的的经验的资本。

书还是要多读的,掌握多一项技能就多一个优势。也不要局限于只是专业方面的书,全方位、多角度、深层次、立体化提高自己的知识水平,也能让自己腹有诗书气自华,万一找到女朋友了呢?

最后

一开始只是想简单研究一下,后来发现数据的分析比数据的爬取要难得多,不过有难度才有意思。一定要提一句,正则表达式真是瑞士军刀阿,在处理文本数据上真真是极好的!

作者:林锐波

链接:https://www.jianshu.com/p/81f56564152c

python招聘现状-前程无忧 Python 招聘岗位信息爬取和分析相关推荐

  1. 【Python课程作业】食物数据的爬取及分析(详细介绍及分析)

    食物数据爬取及分析 项目概述 网页爬取 食物类别 表头设置 食物数据爬取保存 运行结果 数据分析 CSV文件读取 总体描述 分类分析 特定食物分析 运行结果 项目资源 项目概述 日常生活中我们食用的各 ...

  2. python实现对前程无忧的信息的爬取

    1,使用的模块: import codecs import csv import requests import re import json import pprint 2,主要爬取内容: '职位名 ...

  3. python分布式爬虫开题报告范文_基于Python的豆瓣Top250排行榜影片数据爬取和分析开题报告...

    一.选题依据:(简述研究现状,说明该毕业设计的设计目的及意义) 研究现状 Python是一门很全面的语言,又随着大数据和人工智能的兴起,广受爬虫设计者们的青眯.设计者们运用Python语言的框架-Sc ...

  4. python数据采集课设-京东手机评论爬取与分析

    数据采集模块: 1.手机评论采集,数据信息(评论,评分,用户,评论发布时间) 爬取不同的手机评论,需要设置不同的id 如上图红圈处即为手机vivo S12的id import requests imp ...

  5. python爬虫实例电商_Python实现爬取并分析电商评论

    现如今各种APP.微信订阅号.微博.购物网站等网站都允许用户发表一些个人看法.意见.态度.评价.立场等信息.针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息.例如对商品评论的 ...

  6. Python网络数据爬取及分析-智联招聘

    python网络数据爬取及分析-智联招聘 一. 数据爬取 智联招聘是一家面向大型公司和快速发展的中小企业提供一站式专业人力资源的公司,可在智联招聘网站上根据不同城市.不同职位需求搜索得到相关招聘信息. ...

  7. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  8. python爬虫——使用requests库和xpath爬取猎聘网职位详情

    文章目录 前言 一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析 至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...

  9. 区块链招聘信息爬取与分析

    最近在研究区块链,闲来无事抓取了拉勾网上450条区块链相关的招聘信息.过程及结果如下. 拉勾网爬取 首先是从拉勾网爬取数据,用的requests库.拉勾网的反爬虫做的还是比较好的,毕竟自己也知道这种做 ...

  10. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

最新文章

  1. SPU表管理之删除SPU表数据
  2. left join on in
  3. hdu5012 水搜索
  4. Golang协程goroutine和管道channel结合案例
  5. 为什么个体户贷款那么难
  6. 你不得不了解的10款服务器监控工具
  7. 现代交换技术学习笔记001
  8. python怎么筛选excel数据_【In Action】工具-2-用Excel三分钟才能完成的复杂筛选,python十秒完成...
  9. MariaDB-5.5.56 主主复制+keepalived高可用
  10. 陶哲轩实分析 习题 12.5.4,12.5.5
  11. 生成并解析cron表达式
  12. chrome 无法下载文件软件问题
  13. Andorid性能优化之traceview的使用(不懂揍我)
  14. 数据库:实验五MySQL数据库对象-(视图、索引)
  15. 教师节到了,用Python做了个非常好用的学生点名系统
  16. 基于区块链的知识共享框架-Aletheia
  17. 【云驻共创】华为云IoTDA服务下的设备管理流程实操
  18. PeckShield:2019年度区块链安全复盘总结暨区块链十大安全事件
  19. java圆的面积_JAVA编程中求圆的面积怎么写?
  20. 架构师的软实力之发现

热门文章

  1. 【Endnote X9服务器运行失败】
  2. 2020 年的风口是什么?
  3. 编码器的集电极输出、电压输出、互补输出和线性驱动输出
  4. 微信公众号发送客服消息---菜单消息,卡片消息
  5. 单片机__LED点阵学习收获
  6. iOS -- 第三方登录之微信登录 (Swift代码)
  7. css翻转箭头,巧用css3轻松实现箭头上下旋转
  8. 推荐一款笔记软件 Notion
  9. 鸡啄米:C++编程入门系列之一(进制数)
  10. 真正优秀的人,更懂得尊重别人