招聘数据采集+数据清洗与分析+数据可视化
1.需求:
1.1 数据采集
1、 网站解析,利用 chrome 查看网页源码,分析招聘网站网页结构。
1) “检查”招聘网站,在网页中右键点击检查,或者 F12 快捷键,进入
如下图的查看元素页面;
(示例图 1)
2) 检查网站:点击 Network、勾选 Preserve log、点击 Doc、点击清
理按钮、刷新页面、点击 Response,在 Response 查看所需内容。
(示例图 2)
2、 从招聘网站中爬取需要数据,按照要求使用 Java 或 Python 语言编写并完
善爬虫代码,爬取指定数据项,有效数据项包括但不限于:所在城市、公
司名称、薪资、技能要求等多项字段。并将代码文件与代码截图保存。
具体步骤如下:
GZ-2019032 大数据技术与应用(高职组)赛题库
- 16 -
1) 创建爬虫项目\H3CU_recruit\
2) 构建爬虫请求
3) 按要求定义相关字段
4) 获取有效数据
5) 将爬取到的数据保存到指定位置
3、 至此已从招聘网站中爬取了所需数据,下一步我们要将爬取结果进一步进
行相关数据操作,请将操作命令截图并保存。
1.2 数据清洗与分析
本任务使用的招聘网站初始数据集来自于多个网站及平台,且为多次采集汇
总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对
于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和
含糊的业务逻辑。请分析数据集 recruit,根据题目规定要求实现数据清洗。
1、 对于原始数据集字段缺失,可采用填充默认值、均值、众数、KNN 填充、以
GZ-2019032 大数据技术与应用(高职组)赛题库
- 21 -
及把缺失值作为新的 label 方式处理。当缺失信息较少时可采用删除的方式
进行处理。同时,不当的填充可能会令后续的分析结果出现导向性偏差,所
以需要对数据业务逻辑进行全面分析后,确定不合规数据处理方式。请根据
题目具体参数要求,处理招聘数据中的不合规数据,并存入指定数据表或数
据文件中,截图并保存结果。
2、 本任务原始数据集中存在一些脏数据,即源数据不在给定的范围内或对于实
际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和
含糊的业务逻辑数据。这些脏数据会影响后续的数据分析结果,所以需要对
脏数据进行预处理。请根据题目具体参数要求,处理工资字段不合规数据,
使该字段数据格式统一。将清洗后的数据存入指定数据表或数据文件中,截
图并保存结果。
3、 本任务给定的数据集来自于多个网站及平台,且为多次采集汇总的数据,在
整合多来源数据时可能遇到时间、日期、数值、全半角等显示格式不一致的
问题,需要将其处理成一致的格式,以便于进行后续的数据分析。请根据题
目具体参数要求,将原始数据集中格式不一致的数据进行标准化处理,并存
入指定数据表或数据文件中,截图并保存结果。
GZ-2019032 大数据技术与应用(高职组)赛题库
- 22 -
4、 若要将清洗后的数据存储到数据文件中,需要将数据的不同字段使用某种分
隔符分隔开后,再写入数据文件中。后续将数据文件再导入数据库时,同样
以该分隔符进行字段划分。请根据题目具体参数要求,将清洗后的数据以指
定数据分隔符进行分隔,存入指定数据文件中,再使用数据转移工具将数据
导入数据库中,截图并保存结果。
5、 高校开设新专业、新方向时,要以企业相关岗位招聘数量作为重要依据。各
大招聘网站发布的招聘信息是主要的数据来源,进而能够统计某类岗位的招
聘数量。请根据题目具体参数要求,统计岗位招聘数量,并存入指定数据表
或数据文件中,截图并保存结果。
6、 我们根据招聘网站数据通常能够了解相关岗位的招聘情况,包括但不限于地
区分布、学历要求、经验要求、薪资水平等。这些信息为高校专业设置提供
了分析依据和佐证数据。请根据题目具体参数要求,按要求统计相关职位招
聘信息,并存入指定数据表或数据文件中,截图并保存结果。
7、 职业技能图谱描绘了各岗位从业人员的知识技能要求,能够帮助学生梳理知
识框架结构,提供学习路径指导,了解各知识点和技能点的重要程度。通过
招聘网站数据整理职业技能图谱,将有助于学校的专业课程设置,也可使学
GZ-2019032 大数据技术与应用(高职组)赛题库
- 23 -
生了解到岗位从业人员的知识技能要求。请根据题目具体参数要求,分析各
知识技能在某个招聘岗位能力需求中的占比情况,并存入指定数据表或数据
文件中,截图并保存结果。
8、 根据近年某大型招聘网站发布的城市平均工资分布表显示,在全国各城市中,
最高的城市平均工资高达上万元,而最低的城市平均薪酬在 5000-6000 元
左右。工资薪酬是影响择业的很大一个因素,但一线城市的消费水平也同样
很高,房租、交通和伙食费等各方面都是一笔不小的开支。高校毕业生择业
需要根据各方面因素综合进行考量。请根据题目具体参数要求,统计各城市
指定招聘岗位的平均工资,并存入指定数据表或数据文件中,截图并保存结
果。
9、 工作地区与招聘岗位是决定毕业生就业薪酬待遇的两个关键因素。不同地区
或不同岗位的工资待遇往往存在较大差异,这体现了地区行业发展和人才需
求的分布情况。请根据题目具体参数要求,统计指定城市和指定岗位的工资
待遇,并存入指定数据表或数据文件中,截图并保存结果。
1.3 数据可视化:
1、 热门职业特指在以前没有引起大家关注的职业,因为经济环境的改变而现在
GZ-2019032 大数据技术与应用(高职组)赛题库
- 40 -
收入高或者工作环境好(抑或满足人们对职业的特殊偏好)的行业。随着信
息技术的不断发展,云计算、大数据、人工智能都成为了热门职业方向,为
了了解热门职业中对各岗位招聘人数的数量,请根据指定表中数据,统计出
招聘数量最多的前几位的热门职业,通过指定图例进行呈现。
2、 大数据公司内部包含有许多的岗位,例如 JAVA 开发工程师、大数据架构师、
大数据开发工程师、大数据清洗工程师、大数据分析师等,不同岗位对于从
业人员学历、经验、薪资等都有一定的要求,请根据指定表中数据,统计出
各个岗位中相关招聘职位的数量,通过指定图例进行呈现。
3、 大数据产业作为一个新兴信息产业,对从业人员的知识面要求较高,会涉及
到数学、统计、编程、系统部署等多方面知识储备,这些知识内容又会对应
成为一个个的技能点,将这些技能点进行汇总形成大数据岗位的职业技能要
求,是学生今后主要提升的技能点之一。请根据指定表中的数据,分析各知
识技能在某个招聘岗位能力需求中的占比情况,通过指定图例进行呈现。
4、 大数据产业作为一个新兴信息产业,各地大数据产业都在蓬勃发展中,对于
大数据人才的需求也在不断的增加,但是由于人才的相对紧缺,导致大数据
产业的整个工资待遇水平较同行业也具备一定的优势,请根据指定表中的数
GZ-2019032 大数据技术与应用(高职组)赛题库
- 41 -
据,统计出全国某些城市指定招聘岗位平均工资,通过指定图例进行呈现。
5、 近些年大数据产业在全国大幅发展,各个公司对于大数据人员的招聘数量也
在不断增加,通过大数据相关职位的招聘数量可以从一定程度看出行业内人
员流动情况,请根据指定表中的数据,统计出近几年指定职位招聘数量汇总,
通过指定图例进行呈现。
2.实现
链接:https://pan.baidu.com/s/14hA935LLvvAusbk07YXrHg
提取码:yu0d
复制这段内容后打开百度网盘手机App,操作更方便哦
招聘数据采集+数据清洗与分析+数据可视化相关推荐
- python实时招聘信息与岗位分析数据可视化大屏展示(selenium+mysql+flask)
第一部分(数据获取) 1.数据库表创建 首先通过python的sqlalchemy模块,来新建一个表. creat_tables.py(配置好自己的数据库连接和密码) from sqlalchemy ...
- EDG夺冠,用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据:粉丝都疯了(唯一原创)
原创不易,本文禁止抄袭.转载,违权必究! 目录 一.EDG夺冠信息 二.实战目标 2.1 网络爬虫 2.2 数据可视化(词云图) 2.3 自然语言处理(情感分析) 三.bilibili接口分析 四.编 ...
- 数据清洗到实现数据可视化
目录 1,项目目标分析 2,数据清洗 2,存入数据库 3,地图站点显示开发 3.1,pojo类 3.2,dao层 3.3,service层 3.4,controller层 3.5,html页面 4,风 ...
- [python]受力分析数据可视化解决两个问题1.excel转json 2.渲染量过大
客户需求 公司有个项目,是北京某大学的项目,一个虚拟仿真项目,需要模仿一个国外的牛逼软件,我理解为一个受力分析的软件,大概的样子如下 这个图是我手头唯一的图片,实际上这个软件是做了一个三维的受力分析的 ...
- 葡萄牙波尔图市出租车分析数据可视化部分
import numpy as np import os import xlrd import datetime import matplotlib.pyplot as plt import pand ...
- 计算机毕业设计Python+Spark招聘推荐系统 招聘大数据分析 招聘数据采集 招聘可视化系统 求职职位推荐系统 求职大数据 招聘小程序app 招聘网站
功能 技术 Hadoop.Vue.js.Spark.SpringBoot.echarts.阿里云短信.百度AI.支付宝沙箱支付.Python.MySQL.协同过滤推荐算法(apache-mahout) ...
- python数据可视化案例 淘宝粽子_Python分析淘宝月饼销售数据,哪种最受欢迎?排第一的你想不到...
距离国庆中秋8天的假期没几天了,朋友圈各家大厂都开始秀自家定制的中秋月饼礼盒,假期要走亲访友的手里也少不了要提一盒月饼. 每年中秋节到,总会去姥姥那里送中秋,并买上各种各样的月饼,那个时候科技并不怎么 ...
- python爬虫数据可视化软件_python爬虫及数据可视化分析
1.前言 本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/) 2.数据爬取 2. ...
- python爬虫及数据可视化分析
python爬虫及数据可视化分析 1.前言 2.数据爬取 2.1定位到爬取数据 2.2爬虫实现方法 3.数据可视化分析 3.1将短文学网的各类文章做一个统计 3.2对某一类文章进行分析 1.前言 本篇 ...
- 使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化
项目目录 项目要求 工具 软件 具体知识点 具体要求 数据源 爬取字段 数据存储 数据分析与可视化 具体步骤 分析网页 实现代码 抓取全部岗位的网址 字段提取 可视化 分析"数据分析&quo ...
最新文章
- 三、python中最基础的文件处理汇总
- 时间序列数据的预处理
- Linux (redhat 6.5)服务器上安装Webmin
- 4由通道检测_大唐阜新煤制天然气「榜样力量」实训做实出实效——废水总酚检测时间由4小时缩短至10分钟...
- boost::geometry::num_segments用法的测试程序
- 阿伏法机器人_知识与技能 (1)知道机器人的相关知识. (2)理解模块机器人的构成以及各个模块的作用. (3)知道模块电路及其组合方式. (4)初步学会组装和操作模块机器人....
- 【 HDU - 2594 】Simpsons’ Hidden Talents(KMP应用,求最长前缀后缀公共子串)
- Python 字典推导式 - Python零基础入门教程
- html字体外颜色轮廓,HTML5 文本特效 - 轮廓提取
- 漫画:如何给女朋友解释什么是“锟斤拷”?
- 基础知识及命令(1)
- 温度监视器的设计与制作
- 丁磊推荐《你的灯亮着吗》为三大管理必读书
- JAVA 图片URL地址转Byte文件流
- 系统运维数据存储知识-系统数据误删除恢复
- sai在别的图层复制图片后粘贴到新的图层中怎么调整图片尺寸?
- linux u盘保护,u盘被写保护
- 用SDK包开发K66FX18学习笔记(1)
- ajax 提交form表单,上传文件
- turtle简单绘图
热门文章
- springboot 热插拔JRebel
- 计算机使用的显示器有哪些重要参数,正确选择适合自己的显示器,电脑显示器参数详解,看完秒懂!...
- 游戏机生产厂家世界OL破甲刀战详细攻略
- vue如何debugger
- 虚拟机安装ubuntu怎么全屏_ubuntu虚拟机怎么设置全屏显示?
- 数码相册项目(带密码登陆,代码已开源)
- 负载均衡及其常见实现方式
- 【Verilog基础】常见的加法器电路总结(面试常考)(半加器、全加器、行波进位加法器RCA、超前进位加法器CLA)
- 一个优化好的、成熟的代购网站需要哪些功能,操作流程又是怎么样的?
- golang图片处理库image简介