1.需求

背景描述
近年来随着IT产业的快速发展,全国各地对IT 类的人才需求数量也在不断
增多,“XHS集团”为了明确今后IT产业人才培养方向,在多个省份进行 IT公
司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘
网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、
招聘人数等信息,并通过数据的清洗和分析,最终分析出当前IT产业热门岗位、
大数据相关岗位从业人员数量等信息,并进行可视化呈现。
本次为模拟任务,项目组计划使用分布式节点Hadoop模式,环境搭建采用
服务器集群方式,通过在招聘网站上爬取到的相关信息,实现对数据进行爬取、
清洗、整理、计算、表达、分析,力求实现对IT人才就业信息拥有更清晰的掌
握。
作为该项目组的技术人员,你们是这次技术方案展示的核心成员,请按照
下面步骤完成本次技术展示任务,并提交技术报告,祝你们成功。
任务一: Hadoop 平台及组件的部署管理( 15 分)
1) 将指定路径下的Hive 安装包解压到指定目录下;
2) 把解压后的apache-hive-1.1.0-bin 文件夹更名为 hive;
3) 设置Hive 环境变量,并使环境变量只对当前root 用户生效;
4) 将 Hive 安装目录下 hive-default.xml.template 文件更名为 hive-site.xml;
5) 在 Hive 安装目录里创建临时文件夹;
6) 新建并配置 hive-site.xml 文件,实现“Hive 元存储”的存储位置为 MySQL数
据库;
7) 初始化Hive 元数据;
8) 启动Hive。

任务二、数据采集( 15 分)
1) 从各类招聘网站中抓取数据,提取数据项至少包括以下字段:“公司名
称”、“工作城市”、“工作要求”、“招聘人数”、工资情况”(格式:
‘底薪-上限’)、“name”(岗位名称)、“detail”(职位详情),并保存;
2) 爬取的数据需要导入hadoop 平台进行数据清洗与分析,将数据保存至 HDFS
系统中。
任务 三 、数据清洗与分析(2 25 5 分)
1 、为 便于 数据分析与可视化,需要对爬取出的数据进行清洗,清洗出不包 含空
字 段 的职位信息数据,清洗后的职位数据各字 段间 用 竖线 “,” 分 割 。数据清洗
采用 MapReduce  程序 。
1) 使用编写数据清洗的MapReduce 程序(原始数据中已包含职位描述的分词
结果);
2) 将编写好的文件上传并对HDFS 的原始数据进行清洗;
3) 将清洗后的数据加载到Hive 数据仓库中。
2 、数据清洗需要将清洗 程序 jar  包上 传至 至 hadoop  平台上进行 运 行,并将清洗后
结果保 存至hive 数据库中,以 便 后 续 应用。
1) 将 jar 包上传至 hadoop 平台的/root 目录下;
2) 执行mapreduce 任务,并写出执行命令;
3)将执行成功后的数据保存在 HDFS 文件系统的/Clean 目录下;
3) 将清洗后数据存储到hive 中 task 数据库的cleandata 表中。
3 、 运行 行 HQL  命令 ,完成以下数据的分析 统 计
1)统计各岗位招聘数量,将结果写入cleantable 表中;
2)查询“数据”相关岗位的技能要求,将查询结果写入table_bigdata 表中;

3)在 hive 中执行 keycount.sql 脚本,并查看keycount 表中所有核心技能的出现
次数。
注:核心技能关键词如下:c++、Scala、FFlume、Flink、ETL、数学、数据仓库、
Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hive、Spark。
任务 四 、数据可视化( 20 分)
数据可视化呈现内容如下:
1) 使用柱状图展示指定方向当前招聘数量最多的前十个热门职位;
2) 使用折线图展示“大数据”相关职位招聘数量差异;
3) 通过词云的方式对“大数据”相关职位的知识技能要求进行可视化展示。
任务 五 : 综合 分析( 15 )
1) 根据分析结果说明大数据岗位所需要的主要技能包含哪些,并阐述详细理
由;
2) 根据市场需求分析IT产业工程人才培养方向有哪些,并阐述详细理由;
3) 根据市场需求分析,大数据行业的人才培养方向有哪些,并阐述详细理由;
4) 请简述,“XHS集团”今后IT产业人才培养方向是什么。

2.实现

链接:https://pan.baidu.com/s/1dHLhFtAVThOr5pGecO4g6w 
提取码:zvif 
复制这段内容后打开百度网盘手机App,操作更方便哦

招聘数据采集+Hive数据分析+数据可视化相关推荐

  1. Tableau数据分析数据可视化分析平台

    Tableau数据分析&数据可视化分析平台 ​ 本文章内涉及的资源包以及素材均来自于互联网,仅供大家用来交流学习与研究使用,努力提升自己的一篇文章.各类安装包以及素材版权归属原版权方所有,版权 ...

  2. 招聘网站—Hive数据分析

    招聘网站-Hive数据分析 第1关:统计最热门的十种职业(招聘人数最多) #进入hive hive #在hive中创建数据库 mydb create database mydb; #使用数据库 myd ...

  3. Python爬虫+数据分析+数据可视化(分析《雪中悍刀行》弹幕)

    Python爬虫+数据分析+数据可视化(分析<雪中悍刀行>弹幕) 哔哔一下 爬虫部分 代码部分 效果展示 数据可视化 代码展示 效果展示 视频讲解 福利环节 哔哔一下 雪中悍刀行兄弟们都看 ...

  4. MATLAB-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 matlab实战 数据分析 数据可视化 时序数据预测 变种RNN 股票预测

    MATLAB-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 matlab实战 数据分析 数据可视化 时序数据预测 变种RNN 股票预测 摘要 近些年,随着计算机技术的不断发展,神 ...

  5. 动手学数据分析-数据可视化

    动手学数据分析-数据可视化 全部参考 datawhale-动手学数据分析 开始前导入numpy和pandas import numpy as np import pandas as pd import ...

  6. Python数据分析-数据可视化(二)

    欢迎大家访问个人博客:https://jmxgodlz.xyz 文章目录 前言 Matplotlib 折线图格式调整 标签 线条颜色 线条形状 折点样式 线条透明度 前言 看到有些论文插图十分简洁美观 ...

  7. 项目:招聘网站信息(获取数据+数据分析+数据可视化)

    在本次项目中,使用到的第三方库如下: import requestsimport timeimport randomimport jsonimport pandasimport matplotlib. ...

  8. Python爬虫实战+数据分析+数据可视化(豆瓣八佰电影影评)

    一.爬虫部分 爬虫说明: 1.本爬虫是以面向对象的方式进行代码架构的 2.本爬虫爬取的数据存入到MongoDB数据库中 3.爬虫代码中有详细注释 代码展示 import re import time ...

  9. python 可视化分析平台_python 数据分析数据可视化工具matplotlib

    说明: 数据可视化中的数据集下载地址:(数据来源:从零开始学python数据分析和挖掘) 链接:https://pan.baidu.com/s/1zrNpzSNVHd8v1rGFRzKipQ 提取码: ...

  10. python如何读取mat文件可视化_python 数据分析--数据可视化工具matplotlib

    说明: 数据可视化中的数据集下载地址:(数据来源:从零开始学python数据分析和挖掘) 链接:https://pan.baidu.com/s/1zrNpzSNVHd8v1rGFRzKipQ 提取码: ...

最新文章

  1. 深度学习助力网络科学:基于深度学习的社区发现最新综述
  2. Big Data Exchange宣布在南京建设数据中心
  3. obs多推流地址_(无人直播)教程利用OBS推流抖音直播电脑屏幕或PC游戏
  4. JDBC使用总结:增删改查、调用存储过程、执行存储函数、存储过程与存储函数区别分析
  5. lol系统链接不上服务器,lol无法连接服务器【搞定思路】
  6. 404页圈小猫游戏源码
  7. youtube-dl 安装和用法
  8. Microsoft官网 Windows10 系统重装教程
  9. 地坤诀中所记录的第二元婴的炼制办法与其余的炼制方式不一样
  10. 年货:Python技术知识清单(数据科学)
  11. 多伦多大学计算机专音乐专业,终于懂了加拿大音乐专业学院推荐
  12. 男朋友向女朋友打的辞职报告
  13. 联发科技嵌入式_从机械到嵌入式开发,一个研究僧的联发科实习经验分享
  14. 软件行业的三类主要盈利模式
  15. 运动目标检测跟踪主流算法
  16. GaussDB - 浅析华为高斯GaussDB
  17. 易语言 php post,易语言POST发送邮件
  18. RecyclerView+网络加载数据图片+属性动画对角平移透明
  19. kotlin教程4:函数进阶
  20. ideaiu快速查找xml插件

热门文章

  1. 北卡罗来纳州立大学计算机科学,北卡罗来纳州立大学计算机科学理学硕士研究生申请要求及申请材料要求清单...
  2. 北卡州立大学计算机科学硕士,2020年北卡罗来纳州立大学一年制硕士含金量
  3. nlp情感分析经典书籍推荐_通过监督学习对书籍进行情感分析
  4. 如何选择合适的字体:宋体篇
  5. qq文件对方接收后一定会有提示吗_QQ接收别人发的文件怎么设置不弹出接收信息...
  6. 梅西 (Lionel Messi)
  7. kernel网络之RSS,RPS,RFS和XPS
  8. 桌面图标出现混乱,图标文件混乱无法显示怎么修复
  9. CSV读取大文件报错_csv.Error: field larger than field limit
  10. 如何在家打造一个沉浸式的家庭影院呢?