1.需求:

1.1 数据采集

1、 网站解析,利用 chrome 查看网页源码,分析招聘网站网页结构。
1) “检查”招聘网站,在网页中右键点击检查,或者 F12 快捷键,进入
如下图的查看元素页面;

(示例图 1)
2) 检查网站:点击 Network、勾选 Preserve log、点击 Doc、点击清
理按钮、刷新页面、点击 Response,在 Response 查看所需内容。


(示例图 2)
2、 从招聘网站中爬取需要数据,按照要求使用 Java 或 Python 语言编写并完
善爬虫代码,爬取指定数据项,有效数据项包括但不限于:所在城市、公
司名称、薪资、技能要求等多项字段。并将代码文件与代码截图保存。
具体步骤如下:
GZ-2019032 大数据技术与应用(高职组)赛题库
- 16 -
1) 创建爬虫项目\H3CU_recruit\
2) 构建爬虫请求
3) 按要求定义相关字段
4) 获取有效数据
5) 将爬取到的数据保存到指定位置
3、 至此已从招聘网站中爬取了所需数据,下一步我们要将爬取结果进一步进
行相关数据操作,请将操作命令截图并保存。

1.2 数据清洗与分析

本任务使用的招聘网站初始数据集来自于多个网站及平台,且为多次采集汇
总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对
于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和
含糊的业务逻辑。请分析数据集 recruit,根据题目规定要求实现数据清洗。
1、 对于原始数据集字段缺失,可采用填充默认值、均值、众数、KNN 填充、以
GZ-2019032 大数据技术与应用(高职组)赛题库
- 21 -
及把缺失值作为新的 label 方式处理。当缺失信息较少时可采用删除的方式
进行处理。同时,不当的填充可能会令后续的分析结果出现导向性偏差,所
以需要对数据业务逻辑进行全面分析后,确定不合规数据处理方式。请根据
题目具体参数要求,处理招聘数据中的不合规数据,并存入指定数据表或数
据文件中,截图并保存结果。
2、 本任务原始数据集中存在一些脏数据,即源数据不在给定的范围内或对于实
际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和
含糊的业务逻辑数据。这些脏数据会影响后续的数据分析结果,所以需要对
脏数据进行预处理。请根据题目具体参数要求,处理工资字段不合规数据,
使该字段数据格式统一。将清洗后的数据存入指定数据表或数据文件中,截
图并保存结果。
3、 本任务给定的数据集来自于多个网站及平台,且为多次采集汇总的数据,在
整合多来源数据时可能遇到时间、日期、数值、全半角等显示格式不一致的
问题,需要将其处理成一致的格式,以便于进行后续的数据分析。请根据题
目具体参数要求,将原始数据集中格式不一致的数据进行标准化处理,并存
入指定数据表或数据文件中,截图并保存结果。
GZ-2019032 大数据技术与应用(高职组)赛题库
- 22 -
4、 若要将清洗后的数据存储到数据文件中,需要将数据的不同字段使用某种分
隔符分隔开后,再写入数据文件中。后续将数据文件再导入数据库时,同样
以该分隔符进行字段划分。请根据题目具体参数要求,将清洗后的数据以指
定数据分隔符进行分隔,存入指定数据文件中,再使用数据转移工具将数据
导入数据库中,截图并保存结果。
5、 高校开设新专业、新方向时,要以企业相关岗位招聘数量作为重要依据。各
大招聘网站发布的招聘信息是主要的数据来源,进而能够统计某类岗位的招
聘数量。请根据题目具体参数要求,统计岗位招聘数量,并存入指定数据表
或数据文件中,截图并保存结果。
6、 我们根据招聘网站数据通常能够了解相关岗位的招聘情况,包括但不限于地
区分布、学历要求、经验要求、薪资水平等。这些信息为高校专业设置提供
了分析依据和佐证数据。请根据题目具体参数要求,按要求统计相关职位招
聘信息,并存入指定数据表或数据文件中,截图并保存结果。
7、 职业技能图谱描绘了各岗位从业人员的知识技能要求,能够帮助学生梳理知
识框架结构,提供学习路径指导,了解各知识点和技能点的重要程度。通过
招聘网站数据整理职业技能图谱,将有助于学校的专业课程设置,也可使学
GZ-2019032 大数据技术与应用(高职组)赛题库
- 23 -
生了解到岗位从业人员的知识技能要求。请根据题目具体参数要求,分析各
知识技能在某个招聘岗位能力需求中的占比情况,并存入指定数据表或数据
文件中,截图并保存结果。
8、 根据近年某大型招聘网站发布的城市平均工资分布表显示,在全国各城市中,
最高的城市平均工资高达上万元,而最低的城市平均薪酬在 5000-6000 元
左右。工资薪酬是影响择业的很大一个因素,但一线城市的消费水平也同样
很高,房租、交通和伙食费等各方面都是一笔不小的开支。高校毕业生择业
需要根据各方面因素综合进行考量。请根据题目具体参数要求,统计各城市
指定招聘岗位的平均工资,并存入指定数据表或数据文件中,截图并保存结
果。
9、 工作地区与招聘岗位是决定毕业生就业薪酬待遇的两个关键因素。不同地区
或不同岗位的工资待遇往往存在较大差异,这体现了地区行业发展和人才需
求的分布情况。请根据题目具体参数要求,统计指定城市和指定岗位的工资
待遇,并存入指定数据表或数据文件中,截图并保存结果。

1.3 数据可视化:

1、 热门职业特指在以前没有引起大家关注的职业,因为经济环境的改变而现在
GZ-2019032 大数据技术与应用(高职组)赛题库
- 40 -
收入高或者工作环境好(抑或满足人们对职业的特殊偏好)的行业。随着信
息技术的不断发展,云计算、大数据、人工智能都成为了热门职业方向,为
了了解热门职业中对各岗位招聘人数的数量,请根据指定表中数据,统计出
招聘数量最多的前几位的热门职业,通过指定图例进行呈现。
2、 大数据公司内部包含有许多的岗位,例如 JAVA 开发工程师、大数据架构师、
大数据开发工程师、大数据清洗工程师、大数据分析师等,不同岗位对于从
业人员学历、经验、薪资等都有一定的要求,请根据指定表中数据,统计出
各个岗位中相关招聘职位的数量,通过指定图例进行呈现。
3、 大数据产业作为一个新兴信息产业,对从业人员的知识面要求较高,会涉及
到数学、统计、编程、系统部署等多方面知识储备,这些知识内容又会对应
成为一个个的技能点,将这些技能点进行汇总形成大数据岗位的职业技能要
求,是学生今后主要提升的技能点之一。请根据指定表中的数据,分析各知
识技能在某个招聘岗位能力需求中的占比情况,通过指定图例进行呈现。
4、 大数据产业作为一个新兴信息产业,各地大数据产业都在蓬勃发展中,对于
大数据人才的需求也在不断的增加,但是由于人才的相对紧缺,导致大数据
产业的整个工资待遇水平较同行业也具备一定的优势,请根据指定表中的数
GZ-2019032 大数据技术与应用(高职组)赛题库
- 41 -
据,统计出全国某些城市指定招聘岗位平均工资,通过指定图例进行呈现。
5、 近些年大数据产业在全国大幅发展,各个公司对于大数据人员的招聘数量也
在不断增加,通过大数据相关职位的招聘数量可以从一定程度看出行业内人
员流动情况,请根据指定表中的数据,统计出近几年指定职位招聘数量汇总,
通过指定图例进行呈现。

2.实现

链接:https://pan.baidu.com/s/14hA935LLvvAusbk07YXrHg 
提取码:yu0d 
复制这段内容后打开百度网盘手机App,操作更方便哦

招聘数据采集+数据清洗与分析+数据可视化相关推荐

  1. python实时招聘信息与岗位分析数据可视化大屏展示(selenium+mysql+flask)

    第一部分(数据获取) 1.数据库表创建 首先通过python的sqlalchemy模块,来新建一个表. creat_tables.py(配置好自己的数据库连接和密码) from sqlalchemy ...

  2. EDG夺冠,用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据:粉丝都疯了(唯一原创)

    原创不易,本文禁止抄袭.转载,违权必究! 目录 一.EDG夺冠信息 二.实战目标 2.1 网络爬虫 2.2 数据可视化(词云图) 2.3 自然语言处理(情感分析) 三.bilibili接口分析 四.编 ...

  3. 数据清洗到实现数据可视化

    目录 1,项目目标分析 2,数据清洗 2,存入数据库 3,地图站点显示开发 3.1,pojo类 3.2,dao层 3.3,service层 3.4,controller层 3.5,html页面 4,风 ...

  4. [python]受力分析数据可视化解决两个问题1.excel转json 2.渲染量过大

    客户需求 公司有个项目,是北京某大学的项目,一个虚拟仿真项目,需要模仿一个国外的牛逼软件,我理解为一个受力分析的软件,大概的样子如下 这个图是我手头唯一的图片,实际上这个软件是做了一个三维的受力分析的 ...

  5. 葡萄牙波尔图市出租车分析数据可视化部分

    import numpy as np import os import xlrd import datetime import matplotlib.pyplot as plt import pand ...

  6. 计算机毕业设计Python+Spark招聘推荐系统 招聘大数据分析 招聘数据采集 招聘可视化系统 求职职位推荐系统 求职大数据 招聘小程序app 招聘网站

    功能 技术 Hadoop.Vue.js.Spark.SpringBoot.echarts.阿里云短信.百度AI.支付宝沙箱支付.Python.MySQL.协同过滤推荐算法(apache-mahout) ...

  7. python数据可视化案例 淘宝粽子_Python分析淘宝月饼销售数据,哪种最受欢迎?排第一的你想不到...

    距离国庆中秋8天的假期没几天了,朋友圈各家大厂都开始秀自家定制的中秋月饼礼盒,假期要走亲访友的手里也少不了要提一盒月饼. 每年中秋节到,总会去姥姥那里送中秋,并买上各种各样的月饼,那个时候科技并不怎么 ...

  8. python爬虫数据可视化软件_python爬虫及数据可视化分析

    1.前言 本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/) 2.数据爬取 2. ...

  9. python爬虫及数据可视化分析

    python爬虫及数据可视化分析 1.前言 2.数据爬取 2.1定位到爬取数据 2.2爬虫实现方法 3.数据可视化分析 3.1将短文学网的各类文章做一个统计 3.2对某一类文章进行分析 1.前言 本篇 ...

  10. 使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化

    项目目录 项目要求 工具 软件 具体知识点 具体要求 数据源 爬取字段 数据存储 数据分析与可视化 具体步骤 分析网页 实现代码 抓取全部岗位的网址 字段提取 可视化 分析"数据分析&quo ...

最新文章

  1. 三、python中最基础的文件处理汇总
  2. 时间序列数据的预处理
  3. Linux (redhat 6.5)服务器上安装Webmin
  4. 4由通道检测_大唐阜新煤制天然气「榜样力量」实训做实出实效——废水总酚检测时间由4小时缩短至10分钟...
  5. boost::geometry::num_segments用法的测试程序
  6. 阿伏法机器人_知识与技能 (1)知道机器人的相关知识. (2)理解模块机器人的构成以及各个模块的作用. (3)知道模块电路及其组合方式. (4)初步学会组装和操作模块机器人....
  7. 【 HDU - 2594 】Simpsons’ Hidden Talents(KMP应用,求最长前缀后缀公共子串)
  8. Python 字典推导式 - Python零基础入门教程
  9. html字体外颜色轮廓,HTML5 文本特效 - 轮廓提取
  10. 漫画:如何给女朋友解释什么是“锟斤拷”?
  11. 基础知识及命令(1)
  12. 温度监视器的设计与制作
  13. 丁磊推荐《你的灯亮着吗》为三大管理必读书
  14. JAVA 图片URL地址转Byte文件流
  15. 系统运维数据存储知识-系统数据误删除恢复
  16. sai在别的图层复制图片后粘贴到新的图层中怎么调整图片尺寸?
  17. linux u盘保护,u盘被写保护
  18. 用SDK包开发K66FX18学习笔记(1)
  19. ajax 提交form表单,上传文件
  20. turtle简单绘图

热门文章

  1. springboot 热插拔JRebel
  2. 计算机使用的显示器有哪些重要参数,正确选择适合自己的显示器,电脑显示器参数详解,看完秒懂!...
  3. 游戏机生产厂家世界OL破甲刀战详细攻略
  4. vue如何debugger
  5. 虚拟机安装ubuntu怎么全屏_ubuntu虚拟机怎么设置全屏显示?
  6. 数码相册项目(带密码登陆,代码已开源)
  7. 负载均衡及其常见实现方式
  8. 【Verilog基础】常见的加法器电路总结(面试常考)(半加器、全加器、行波进位加法器RCA、超前进位加法器CLA)
  9. 一个优化好的、成熟的代购网站需要哪些功能,操作流程又是怎么样的?
  10. golang图片处理库image简介