Hive职位岗位数据分析实战

文章目录

  • Hive职位岗位数据分析实战
    • 创建数据库
    • 使用创建的数据库
    • 创建表
    • 在hdfs上加载数据
    • 如果不在hdfs,在本地加载数据
    • 查看数据
创建数据库
create database jobdata;
使用创建的数据库
use jobdata;
创建表
create table jobdata_origin(city string comment "城市",salary array<String> comment "薪资",company array<String> comment "福利",kill array<String> comment "技能") comment "原始职位数据库"row format delimited fields terminated by ','collection items terminated by '-'stored as textfile;
在hdfs上加载数据
load data inpath '/JobData/output/part-r-00000' overwrite into table jobdata_origin;
如果不在hdfs,在本地加载数据
load data local inpath '/root/part-r-00000' overwrite into table jobdata_origin;
查看数据
select*from jobdata_origin;

下面的方法创建jobdata_detail表,并且加载jobdata_origin表里面的数据

下面的方法可以加载数据:

create table jobdata_detail as select city,salary,company,kill,salary[0] low_salary,salary[1] high_salary,(salary[0]+salary[1])/2 avg_salary from jobdata_origin;

#查询细化的薪资

select*,salary[0],salary[1],(salary[0]+salary[1])/2 from jobdata_origin limit 10;

#创建表tmp_salay,扁平化处理后的薪资临时表

create table tmp_salary as select explode(jo.salary) from jobdata_origin jo;

#创建tmp_company,扁平化处理后的公司临时表

create table tmp_company as select explode(jo.company) from jobdata_origin jo;

#tmp_kill 扁平化处理后的技能临时表

create table tmp_kill as select explode(jo.kill) from jobdata_origin jo;

#对tmp_salary表的每一条数据进行泛化处理,将处理结果存储到中间表tm_salarylist中,命令如下:

create table tmp_salarylist as  select col,case when col>=0 and col<=5 then "0-5"  when col>=6 and col<=10 then "6-10"  when col>=11 and col<=15 then "11-15"  when col>=16 and col<=20 then "16-20"  when col>=21 and col<=25 then "21-25"  when col>=26 and col<=30 then "26-30"  when col>=31 and col<=35 then "31-35"  when col>=36 and col<=40 then "36-40"  when col>=41 and col<=45 then "41-45"  when col>=46 and col<=50 then "46-50" when col>=51 and col<=55 then "51-55"  when col>=56 and col<=60 then "56-60"  when col>=61 and col<=65 then "61-65"  when col>=66 and col<=70 then "66-70"  when col>=71 and col<=75 then "71-75"  when col>=76 and col<=80 then "76-80"  when col>=81 and col<=85 then "81-85"  when col>=86 and col<=90 then "86-90"  when col>=91 and col<=95 then "91-95"  when col>=96 and col<=100 then "96-100"  when col>=101 then ">101" end from tmp_salary;

#查询泛化后的数据

select*from tmp_salarylist limit 10;

分析1,职位区域分析:

查询不同城市大数据岗位的需求量,查询结果保存到t_city_detail表

select city,count(*) from jobdata_origin group by city;

建表插入

create table t_city_detail asselect city,count(*) from jobdata_origin group by city;

查看创建的表并且排序

select*from t_city_detail sort by count desc;


职位薪资分析(全国薪资分布情况)

统计不同工资区间频率和占比

1查询

select c1,count(*) from tmp_salarylist group by c1;

2:建表

create table t_salary_detail asselect c1,count(1) from tmp_salarylist group by c1;

3.查看表结构

desc t_salary_detail;

3:验证

select * from t_salary_detail sort by c1 desc;

职位薪资分析(薪资的平均值、中位数和众数)

求薪资的平均值,平均值是统计中的一个重要概念。为集中趋势的最常用测度值,目的是确定一组数据的均衡点。

求薪资的众数,众数是指统计分布上具有明显集中趋势点的数值,代表数据的一般水平,也是一组数据中出现次数最多的数值。

求薪资的中位数,中位数又称中值,是统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值。

薪资的平均值

select avg(avg_salary) from jobdata_detail;

薪资的众数

select avg_salary,count (*) cnt from  jobdata_detail group by avg_salary sort by cnt desc limit 1 ;

薪资的中位数

select percentile(cast(avg_salary as BIGINT),0.5) from jobdata_detail;

求各个城市的招聘岗位数量和城市的平均薪资

select city,count(city),round(avg(avg_salary),2) as cnt from jobdata_detail group by city sort by cnt desc;

公司福利分析

对公司福利字段进行分析,统计大数据职位相关公司对员工福利常用的标签有哪些。即统计不同福利标签频率。结果存储到tmp_ods_company表中

select col,count(*) from tmp_company;create table t_company_detail as select col company,count(*)count from tmp_company group by col;select * from t_company_detail sort by count desc limit 5;

职位技能要求分析

通过对技能标签分析,了解要从事大数据相关工作需要掌握哪些技能,招聘公司比较重视哪些技能。即统计不同技能标签出现的频率

select col,count(*) from tm_kill;create table t_kill_detail as select col kill,count(*) count from tmp_kill group by col;select * from t_kill_detail sort by count desc limit 10;

能标签出现的频率

select col,count(*) from tm_kill;create table t_kill_detail as select col kill,count(*) count from tmp_kill group by col;select * from t_kill_detail sort by count desc limit 10;

Hive职位岗位数据分析实战相关推荐

  1. 111个Python数据分析实战项目,代码已跑通,数据可下载

    写在前面: 这里整理了111个数据分析的案例,每一个都进行了严格的筛选,筛选标准如下: 1. 有干货:杜绝纯可视化.统计性分析,有一定比例的讲解性文字 2. 可跑通:所有代码均经过测试,(大概率)可以 ...

  2. 《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第2章 数据分析的理论、工具、模型...

    本节书摘来自华章出版社<数据分析实战 基于EXCEL和SPSS系列工具的实践>一书中的第2章,第2.1节,纪贺元 著,更多章节内容可以访问云栖社区"华章计算机"公众号查 ...

  3. 《Spark大数据分析实战》——1.4节弹性分布式数据集

    本节书摘来自华章社区<Spark大数据分析实战>一书中的第1章,第1.4节弹性分布式数据集,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区"华章社区"公众号查看 1. ...

  4. Spark数据分析实战:大型活动大规模人群的检测和疏散

    Spark数据分析实战:大型活动大规模人群的检测和疏散 2016-06-29 Hadoop技术博文 近日,风靡西雅图.旧金山的Datapalooza登陆上海(IBM Spark大赛启动 10万美元悬赏 ...

  5. 分享3个数据分析实战项目(附最新资料包)

    "跳槽大厂数分岗位,到底需要准备什么呢?" 之前我简历里带了一个数据分析实战经验,项目不大不小,只是想用来美化下简历.结果没想到,最后这竟然成了我斩获大厂offer的关键之一! 相 ...

  6. nginx+flume网络流量日志实时数据分析实战

    文章目录 nginx+flume网络流量日志实时数据分析实战 网络流量日志数据分析-概述 网络流量日志数据分析-数据处理流程 网络流量日志数据分析-数据采集 网站日志文件 启动nginx服务器: 刷新 ...

  7. 拉勾数据分析实战训练营

    数据分析思维与业务流程 MYSQL数据分析实战 互联网公司必备-BI商业智能工具 大数据查询利器 HIVE . .

  8. 【数据分析】基于Python的一次职位招聘数据分析(入门参考)

    基于Python的一次职位招聘数据分析 1 Python数据分析常用的库和库函数 2 一次完整的数据分析过程 画图 工作地点处理 工资计量单位统一 公司类型 行业类型 参考 配套资源下载 职位信息分析 ...

  9. 【每周一本书】之《游戏数据分析实战》:盛大游戏数据分析专家亲历16年的实战经验分享

    [数据猿导读]<游戏数据分析实战>贯穿整个游戏生命周期,提供了丰富的数据分析案例,从预热到封测,再到公测, 均为作者在实际工作中经历的真实案例.案例分析包含数据来源.分析方法.分析过程.分 ...

  10. python朋友圈点赞统计_Python数据分析实战案例:统计分析微信朋友圈数据(附实操视频)...

    原标题:Python数据分析实战案例:统计分析微信朋友圈数据(附实操视频) 本文内容将通过一个具体实例讲解将朋友圈数据导出为JSON文件的方法,并介绍使用Python统计分析JSON数据的过程. 注: ...

最新文章

  1. 脑机接口成唯一沟通方式,渐冻症晚期父亲终向4岁儿子表达爱意
  2. abaqus画一个球 python_简单几步,100行代码用Python画一个蝙蝠侠的logo
  3. Nginx 负载均衡 - linux下nginx加载配置文件异常处理,提示invalid PID number in “/run/nginx.pid“问题解决
  4. TreeView数据绑定的方法
  5. 技巧心得:Linux技巧小总结
  6. Linux下后台任务管理screen的常见用法(命令)
  7. 报错:Unchecked runtime.lastError:Could not establish connection. Receiving end does not exist.
  8. python对ip地址排序、对列表进行去重
  9. 洛谷——P1014 [NOIP1999 普及组] Cantor 表
  10. 随手练—— 洛谷-P2945 Sand Castle(贪心)
  11. python上传文件到oss_python实现上传文件到OSS
  12. 随笔分类 - PowerShell
  13. 极米科技非“极客”:研发多年未掌握核心科技,还向竞品购买专利
  14. 计算机网络nc是什么意思啊,请问nc是什么?
  15. 解决问题最高明的方法:打开自己
  16. Vue + vite 切换 favicon图标
  17. 小白期货CTP程序化交易开发入门(一)--CTP开发基础
  18. input输入框事件流程变化
  19. 西涝东雪!数场冬季风暴轮番侵袭美国 多地预警
  20. 大数据24小时:Salesforce拟65亿美元收购Mulesoft,林志颖加盟小黑鱼科技任首席体验官

热门文章

  1. hr面试性格测试30题_人事面试--测试篇--30
  2. spring boot 在fastdfs文件上传大小限制
  3. 2021-07-03 dd命令拷贝数据错误的问题定位及解决方法
  4. 日志报错:kernel: blk_update_request: I/O error, dev fd0, sector 0
  5. 计算机网络名怎么设置,网络ssid怎么设置
  6. Pytorch框架--知识图谱可视化展示
  7. Windows平台通过CMD查询域名的Whois信息
  8. 关于windows密码加密算法的说明
  9. EasyExcel导出设置表头字体样式和批注
  10. [论文阅读] Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting