1.前置准备

数据准备

18999001 王述龙 男   1998-12-10  上海  98  100 2000
18999002    孙宇鹏 男   1999-11-17  沈阳  51  500
18999003    王应龙 男   2000-02-04  沈阳  59  100
18999004    张琼宇 女   1999-07-01  大连  89  200
18999005    宋传涵 女   1999-07-20  上海  86  100 1000
18999006    李亚楠 女   1998-01-24  杭州  97  200 2000
18999007    侯楠楠 男   2000-01-29  北京  79  200
18999008    陈姝元 女   1999-06-24  北京  96  200 1500
18999009    陆春宇 男   1998-01-18  沈阳  87  300 1000
18999010    孙云琳 女   1997-07-15  上海  56  300
18999011    尤骞梓 女   1999-04-25  杭州  86  200 1000
18999012    张爱林 男   1999-05-16  北京  92  400 1500
18999013    曹雪东 男   2000-11-20  北京  78  300
18999014    贾芸梅 女   2000-06-12  大连  88  400 1000
18999015    温勇元 男   1999-08-08  上海  65  500
18999016    张微微 女   1998-01-27  北京  90  400 1500
18999017    李君年 男   1998-03-21  上海  78  500
18999018    卢昱泽 女   1998-08-01  上海  57  500
18999019    赵旭辉 男   1999-02-18  北京  75  500
18999020    张矗年 男   1997-07-26  重庆  86  300 1000

2.流程实操

创建一个数据仓库hrsystem,并切换到该库中。

create database hrsystem;use hrsystem;show databases;

在hrsystem数据仓库中创建一张外部表:学生表emp。

create external table if not exists emp(sno int comment"学号",sname string comment"姓名",gender string comment"性别",bday string comment"出生日期",area string comment"地区",score double comment"成绩",deptno string comment"所在学院",scholarship double comment"奖学金"
)row format delimited fields terminated by '\t';

将外部表转换为内部表。

alter table emp set tblproperties('EXTERNAL'='FLASE');

查询表结构的详细信息。

desc formatted emp;

将本地文件/opt/datas/emp.txt导入到学生表emp中。

load data local inpath '/opt/datas/emp.txt' into table emp;

在浏览器中查看HDFS上学生表emp的数据。

查询奖学金scholarship不为空的所有学生信息。

select * from emp where scholarship is not null;

查询学生表emp中平均成绩小于70分的学号。

Having和Where的区别
where作用于表中的列,having作用于查询结果中的列
where后不能写分组函数,having后可以使用分组函数

select sno, avg(score) avg_score
from emp group by sno
having avg_score < 70;

查询学生表emp中平均成绩小于70分的部门。

select deptno, avg(score) avg_score
from emp group by deptno
having avg_score < 70;

查询出生日期中含有5的学生的姓名和生日。

select sname,bday
from emp where bday RLIKE '[5]';

查询学生表emp的信息,并按部门降序排列。

-- 内部排序
select * from emp sort by deptno desc;select * from emp order by deptno desc;

按照学生成绩的2倍排序。

select sname, score*2 twoscore
from emp order by twoscore;

查询emp表中每个部门的平均成绩。

select deptno, avg(score) avg_score
from emp group by deptno;

查询成绩大于95分,或者系别是100的学生信息。

select *
from emp where score>95 or deptno=100;

随机抽样学生表emp中的10行记录,其中包括学生姓名sname和成绩score。

select sname,score
from emp tablesample(10 rows);

利用条件函数,查询学生表emp中不同部门男女人数。

select  deptno,sum(case gender when '男' then 1 else 0 end) male_count,sum(case gender when '女' then 1 else 0 end) female_count
from emp
group by deptno;

了解更多知识请戳下:

@Author:懒羊羊

Hive小额数据处理(模拟数据已给出)相关推荐

  1. Hive面试-情景题总结【包含:建表脚本、数据导入脚本、模拟数据】

    文章目录 前言: 建表语句 load脚本 常见sql情景题 前言: Hive面试除了理论知识外 情景题也占据了很大的比重 总结一下有代表性的几道情景题,可以根据这些情景题来推演其他相似的题型 本锦集并 ...

  2. EMC创建出《星际旅行》全息甲板,并利用其模拟数据中心

    是的,我们猜--应该有用--吧 在着手构建数据中心之前,首先进行模拟验证 EMC公司现在已经能够利用虚拟服务器模拟数据中心内部的交互关系. 数据中心可以说是世界上最为复杂的建筑之一.然而,这并不是因为 ...

  3. 海量数据处理 大量数据中找出最大的前10个数 (Top K 问题)

    在工作中我们常遇到此类问题,从一个大量甚至海量的数据中取出前几个大的数.必须在海量的文章中取出点击量最大的10篇文章. 此类问题其实就是Top K问题. 给定一个数据(数据量海量 N),想找到前 K ...

  4. Hive JSON数据处理:get_json_objec、json_tuple、用JSON Serde加载数据

    Hive JSON数据处理 文章目录 Hive JSON数据处理 将JSON保存为字符串,用JSON函数处理 get_json_object json_tuple 用JSON Serde加载数据 将J ...

  5. 大数据处理的数据从何而来?

    前两天小编和同事聊天,有一茬没一茬的聊到,"咦,你说咱们用来做大数据处理的这些数据,都是从哪来的呢?",小编一时语塞,"你管它呢,总之它就有".这个问题它还真是 ...

  6. Hive数据导入——数据存储在Hadoop分布式文件系统中,往Hive表里面导入数据只是简单的将数据移动到表所在的目录中!...

    转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...

  7. js json对象转字符串_Mock.js模拟数据实现前端独立开发

    在后端接口尚未完成时, 前端开发人员只能请求静态文件的方式来模拟数据, 非常繁琐, 使用mockjs, 我们可以对ajax请求进行拦截, 随机生成各种各样的数据, 包括图片, 非常方便, 由于实在肝不 ...

  8. hive通过外表把数据存到mysql中_hive数据去重

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 hive的元数据存储:通常是存储在关系数据库如 mysql(推荐) , derby(内嵌 ...

  9. mac bash file密码_Mac系统 | 菜鸟程序员项目模拟数据迁移,会安装Mysql服务端吗

    在中小公司做项目,关系型数据库一般用的比较多的是MySQL.项目从开发到上线的过程中,公司会提供虚拟机服务器数据库中的数据给自己进行本地开发和测试.在开发过程中,我也发现公司只是提供数据库服务端的ip ...

最新文章

  1. problem-solving-with-algorithms-and-data-structure-usingpython(使用python解决算法和数据结构) -- 基本数据结构(二)...
  2. php扩展 静态库,编译PHP扩展的方法
  3. Almost sorted interval
  4. 图(Graph)的javascript实现
  5. (Mirage系列之十)Mirage经典案例之系统恢复
  6. 中用BBP公式计算_【真课堂】7年级信息技术:数据计算
  7. 静态NAT技术三部曲
  8. 关于html-三角的制作
  9. 1.11 为什么使用卷积?
  10. Vue开发实例(02)之将Vue项目代码导入到IDEA并运行
  11. linux系统 删除文件命令
  12. WIN7镜像中增加USB3.0驱动和语言包
  13. “天生BUFF”华硕主板冷傲ROG
  14. PAT A1119 Pre- and Post-order Traversals ——小楼一夜听春雨,深巷明朝卖杏花
  15. SpringBoot 使用异常自定义错误码
  16. Unity3d组合键
  17. 中文版Ubuntu系统转为英文版Ubuntu
  18. 【慕课-湖南大学】服务设计与商业模式
  19. criterial查询(2014-05-29 03:51)续-----Example
  20. 串口发送程序linux,单片机IO口模拟串口程序(发送+接收

热门文章

  1. js截取url问号前面_JS获取URL中问号后面参数值
  2. ur机器人计算机模拟仿真,UR机器人科研应用案例
  3. RBP系统管理之用户审批
  4. 华视cvr-100UC 二代身份证读卡通用函数
  5. 2017夸专业计算机考研,2017跨专业考研有难度吗?
  6. 51--可调频率和占空比的PWM波
  7. FFmpeg 集成 x265 编译及解码
  8. 旋转编码器怎么调零点?
  9. 如何看懂Elastic解决方案与Gartner的魔力象限
  10. 网络基础知识——交换机路由器