目录

第一章 2020年安徽省大数据比赛hive习题 (网络赛)

第二章 2020年安徽省大数据比赛hive习题 (现场赛)


前言

主要记录hive习题


一、2020年安徽省大数据比赛hive习题(网络赛)

部分:大数据分析(20分)

疫情期间各类政府媒体及社交网站,均发布了相关疫情每日统计数据,下面基于数据仓库工具Hive请你统计分析相关疫情数据。

数据字段为:日期、省份、城市、新增确诊、新增出院、新增死亡、消息来源、来源1,来源2,来源3

  1. 请在hdfs根目录下中创建一个目录,以你的小组名称英文全拼命名_data,并将以上疫情数据上传到这个目录中,截图成功后结果(2分)。
  2. 请你在hive中创建数据库名为: ods_yiqing_data,并切换使用这个数据库,截图成功后结果       create database   ods_yiqing_data;   use ods_yiqing_data;
  3. 创建一个hive外部表,字段为以上疫情数据全部字段(自行命名字段),数据存储位置为第1小题创建的hdfs目录,请粘贴建表语句及运行成功截图(3分)。
    ​create   table  epis(data string,province string,city string,definite  int,leave  int,die  int,messageone  string,messagetwo  string,messagethree  string ) row format delimited fields terminated by ',';​
  4. 统计湖北省各市2月新增确诊病例总数,按照总数降序排列,请提供SQL语句及运行结果截图(4分)
    select * from (select  city,sum(definite) as sumPeople
    from                                 epidemic
    where  province='湖北' and data like "2月%"
    group by  city
    )t1order by t1.sumPeople desc;
  5. 统计文件中安徽省合肥市每月新增确诊病例总数,按照降序排列,请提供SQL语句及运行结果截图(4分)
    
    select  substr(data,1,2), sum(definite)  ,rank() over(order by sum(definite) desc)
    fromepidemic
    where  city='合肥市' and province='安徽'group by substr(data,1,2);
  6. 统计文件中湖北每月新增出院病例总数最多的前2个城市,请提供SQL语句及运行结果截图(5分)
     select t1.datas datas, t1.city city, t1.nums count
    from
    (select  substr(data,1,2) datas,city,sum(definite) nums,
    row_number() over(partition by  substr(data,1,2) order by sum(definite) desc) rmp
    from epidemic
    where province= "湖北"
    group by  substr(data,1,2),city)t1
    where t1.rmp <= 2;

二、2020年安徽省大数据比赛hive习题(现场赛)

   1 创建一个数据库,以你的组名命名,创建成功后使用use命令切换为该库,并执行set hive.cli.print.current.db=true;截图作为答案(2分)

          省略

2、在HIVE中创建需要的表,并写出建表语句,表结构如下:(3分)

(1).学生资料表(student)

字段

字段描述

字段类型

s_id

学生ID

int

s_name

学生姓名

String

s_sex

学生性别

String

s_age

学生年龄

int

s_dept

所在系

String

.课程表 (course)

字段

字段描述

字段类型

c_id

课程ID

int

c_name

课程名称

String

3:考试成绩表(sc)

字段

字段描述

字段类型

s_id

学生id

int

c_id

课程id

int

score

成绩

int

  1. 创建hive表 语句截图:

2)创建成功,执行show tables;截图;

省略

3、将数据加载到表中,写出加载数据的语句(3)

数据文件名称分别与表名称对应,(字段分隔符为,),注意,linux系统和hive默认不支持中文,要自己设置成utf-8编码才可以支持中文。

1) 导入命令截图;

2)执行 select * from table_name 并截图(其中table_name 为前面创建的表名)

执行 select * from student; 截图

执行select * from sc; 截图

执行select * from course; 截图

省略

4、利用hive进行数据分析查询(12分)。

1)查询各科成绩平均分(1分)

sql语句截图:

select c_id,avg(score) avg
from sc
group by c_id;

2)查询选修1号课程的学生最高分数(1分)

sql语句截图:

select c_id,score,s_id
from
sc
where c_id =1
order by c_id desc limit 1
;

3)查询每个学生及其选修课程的情况 (1分)

sql语句截图:

select name,concat_ws('|',collect_set(c_name))
from
(select t1.s_name as name,t2.c_id as id
from
student as t1 left join sc as t2
on
t1.s_id = t2.s_id)t3,course as t4
where t3.id = t4.c_id
group by t3.name
;

4)查询选修了3门以上(包含3门)的课程的学生学号(4分)

sql语句截图:

select s_id
from
(select s_id,count(*) sum from
(select a.s_id s_id,b.c_id c_id
from
student as a,sc as b
where a.s_id = b.s_id
)t1
group by s_id
)t2
where sum >3;

5)查询每门课程成绩前两名的学生信息(5分)

sql语句截图:

select c_id,t3.s_id,t3.s_name,t3.s_age,t3.s_dept,t3.s_sex
from
(select c_id,s_id
from
(select c_id,s_id,rank() over(partition by c_id order by score desc) as t
from
sc)t1
where t<=2)t2,student as t3
where t2.s_id = t3.s_id;

总结

以上就是今天要讲的内容,本文仅仅简单介绍了做题的过程。

2020年安徽省大数据网络赛与现场赛hive习题相关推荐

  1. 2020安徽省大数据与人工智能网络赛题目

    今年参加了安徽省大数据与人工智能比赛,第一次参加.获得省级二等奖,(队友很给力,我拖后腿了), 自己实力还是有所欠缺.比赛过程中时间安排不是很合理,导致最后一题综合题(spark数据处理)没有时间做, ...

  2. 2021年安徽省大数据与人工智能应用竞赛大数据(网络赛)-高职组赛题第三部分可视化

    第三部分:可视化(30分) 这是一份用户消费行为数据,用来分析用户消费情况及品牌情况,可视化消费变化趋势. 数据中中文字符为UTF-8编码,字段分隔符为 @@ 列名 说明 montha 购买月份 us ...

  3. 2021年安徽省大数据与人工智能应用竞赛人工智能(网络赛)-本科组赛题

    第一部分:人工智能基础环境搭建部署(15分) 注:任务1与任务2任选一题完成即可. o 任务1:Anaconda 3.scikit-learn.OpenCV 3.X.PyTorch 1.8.X.tor ...

  4. 安徽省大数据与人工智能竞赛经验分享-3【从赛题中分析比赛需要的技能】

    写在前面 本模块内容为我们团队一位优秀的童鞋总结的,分享给各位参加比赛的同学们,如果有感兴趣的同学或者友友,可以微信搜索BI and BME理解更多内容. 比赛中需要哪些技能,"大数据&qu ...

  5. 2019年安徽省大数据与人工智能应用赛总结---本科组

    前言 2019年安徽省大数据与人工智能决赛于10月13日在安徽省职业经济管理学院举办.现场赛共计90支队伍,经过4个小时的激烈追逐,我们组获得了22名的不错成绩,荣获省级二等奖 .严格意义上说,这是我 ...

  6. 2020安徽省大数据竞赛可视化题目解析

    题目 安徽省大数据竞赛-可视化题目 分析某公司订单数据 数据 数据下载 数据说明: Order.csv是订单数据 订单数据格式为: 订单ID 订单日期 省/自治区 产品ID 类别 销售额 数量 折扣 ...

  7. 国家级大数据网络加速实验室落户迅雷

    11月12日 日前,国家发改委正式批复,大数据网络加速技术国家地方联合工程实验室落户迅雷.据了解,该实验室是在大数据加速领域唯一的国家级工程实验室.这意味着,迅雷在大数据网络加速技术领域达到了行业领先 ...

  8. 数据分析初探——以2020百度西安交大大数据竞赛:传染病感染人数预测为例

    文章目录 数据分析初探--以2020百度&西安交大大数据竞赛:传染病感染人数预测为例 比赛的大致情况 环境配置与相关包的配置 anaconda和pytorch(顺带tensorflow)的配置 ...

  9. [大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建)

    **在操作前,先梳理一下HADOOP完全分布式需要做些什么,不然像无头的苍蝇一样,永远不知道做什么.因为我本人比赛是一台服务器Centos 7,与三台客户端Ubuntu 18.04,所以以物理机的角度 ...

最新文章

  1. Linux文件目录付空,Linux 文件系统
  2. Linux环境变量加载的研究
  3. ehlib 用法记录
  4. java8 LocalDate 日期比较大小
  5. 网游类似魔兽世界的服务器维护都是在干嘛?
  6. jdk8读取文件_JDK 7和JDK 8中大行读取速度较慢的原因
  7. 脚本两则--用于快速部署HADOOP,SPARK这些(特别是VM虚拟机模板部署出来的)。。...
  8. all方法 手写promise_promise.all的实现
  9. java pojo生成_生成代码的代码 之 POJO生成器
  10. 写一篇meta分析要多少时间?如何写好一篇Meta分析,你需要这样做
  11. 在linux下使用ps3手柄
  12. Python提取CSV数据统计四分位数
  13. 如何设置PPT,演示者能看到备注而观众看不到
  14. 师徒结对活动记录表计算机,师徒结对活动记录表一.doc
  15. 数据分析师前景怎样?为什么企业每年都会在数据分析技术上“砸钱”?
  16. Nature子刊 | 地下水固碳速率与寡营养海洋系统固碳速率相近
  17. Windows下Tesseract训练音符识别
  18. linux media 权限,root用户在media文件夹下修改文件权限无效
  19. jquery load回调封装_Jquery Lazyload回调
  20. 〖Python 数据库开发实战 - MySQL篇㉟〗- 综合案例 - 数据库ER图设计、新闻类型表与用户角色表的创建

热门文章

  1. SAR影像辐射定标工程化实现之GF3
  2. 公众号学生成绩查询系统
  3. 领取失业保险金人员参加职工医保个人不缴费
  4. 带你聊聊邮件系统的前世今生......
  5. pytorch自动绘制各种曲线 acc loss...
  6. ORB-SLAM2环境配置以及运行详解(一):ROS与非ROS环境下的安装、编译、离线数据集测试
  7. 4.15早盘黄金行情平平,白银TD纸白银行情分析
  8. 数据库 E-R图实例
  9. Microsoft Edge浏览器下载文件乱码修复方法(二)
  10. 「论文翻译」Graph convolutional networks for computational drug development and discovery