数据仓库工具hive面试题集锦

大数据技术成为互联网发展的核心要素之一，想从事大数据开发需要掌握多种核心技术：Hadoop、Hive、Storm、Spark、Scala等等。

这些技术知识点已经成为大数据工程师，进入职场时面试中必备的考点。今天，和大家分享一些数据仓库工具hive相关的面试题！

1. Hive 的join有几种方式，怎么实现join的？

有3种join方式：

① 在 reduce 端进行 join，最常用的 join 方式。

Map端的主要工作：为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。

reduce 端的主要工作：在 reduce 端以连接字段作为 key 的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开，最后进行笛卡尔。

② 在 map 端进行 join，使用场景：一张表十分小、一张表很大。

在提交作业的时候先将小表文件放到该作业的 DistributedCache 中，然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表，看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录，如果有则直接输出结果。

③ SemiJoin，semijoin 就是左边连接是 reducejoin 的一种变种，在 map 端过滤掉一些数据，在网络传输过程中，只传输参与连接的数据，减少了 shuffle的网络传输量，其他和 reduce的思想是一样的。

实现：将小表中参与 join 的 key 单独抽取出来通过 DistributeCache 分发到相关节点，在 map 阶段扫描连接表，将 join key 不在内存 hashset 的纪录过滤掉，让参与 join 的纪录通过 shuffle 传输到 reduce 端进行 join，其他和 reduce join 一样。

2. hive 内部表和外部表的区别？

内部表：

建表时会在 hdfs 创建一个表的存储目录，增加分区的时候，会将数据复制到此location下，删除数据的时候，将表的数据和元数据一起删除。

外部表：

一般会建立分区，增加分区的时候不会将数据移到此表的 location下，删除数据的时候，只删除了表的元数据信息，表的数据不会删除。

3. hive 是如何实现分区的？

建表语句：

create table tablename (id) partitioned by (dt string)

增加分区：

alter table tablenname add partition (dt = ‘2016-03-06’)

删除分区：

alter table tablename drop partition (dt = ‘2016-03-06’)

4. Hive 有哪些方式保存元数据，各有哪些优缺点？

① 存储于 derby 数据库，此方法只能开启一个hive客户端，不推荐使用

② 存储于mysql数据库中，可以多客户端连接，推荐使用。

5、 hive 如何优化？

① join 优化，尽量将小表放在 join 的左边，如果一个表很小可以采用 mapjoin。

② 排序优化，order by 一个 reduce 效率低，distirbute by +sort by 也可以实现全局排序。

③ 使用分区，查询时可减少数据的检索，从而节省时间。

6. hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

TextFile：默认格式，数据不做压缩，磁盘开销大，数据解析开销大;

SequenceFile：Hadoop API提供的一种二进制文件支持，使用方便，可分割，可压缩，支持三种压缩，NONE，RECORD，BLOCK;

RCFILE：是一种行列存储相结合的方式。首先，将数据按行分块，保证同一个 record 在同一个块上，避免读一个记录读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。数据加载的时候性能消耗大，但具有较好的压缩比和查询响应。

7. hive 相对于Oracle来说有那些优点？

① 存储，hive 存储在 hdfs 上，oracle 存储在本地文件系统。

② 扩展性，hive 可以扩展到数千节点，oracle 理论上只可扩展到 100 台左右。

③ 单表存储，数据量大 hive 可以分区分桶，oracle 数据量大只能分表。

8. Hive 的 sort by 和 order by 的区别？

order by：

会对输入数据做全局排序，只有一个 reduce，数据量较大时，很慢。

sort by：

不是全局排序，只能保证每个 reduce 有序，不能保证全局有序，需设置mapred.reduce.tasks>1。

数据仓库工具hive面试题集锦相关推荐

hive 删除分区_数据仓库工具hive面试题集锦（纯干货）
进入DATE时代,大数据技术成为互联网发展的核心要素之一.与此同时大数据开发工程师的薪资也成为行业内高薪的代表.想从事大数据开发需要掌握多种核心技术:Hadoop.Hive.Storm.Spark.S ...
【大数据之路5-1】数据仓库工具 Hive
数据仓库工具 Hive 1. Hive 概述 1. Hive 核心概念 2. Hive 优势 3. Hive 特点 4. Hive 和 RDBMS(关系型数据库)的对比[面试点] 5. Hive 架构 ...
Hadoop技术(三)数据仓库工具Hive
数据仓库工具Hive 第一章 hive是什么一数据仓库工具Hive 二 hive架构三 Hive执行流程第二章 Hive的搭建一 Hive的搭建模式介绍二单用户模式搭建三多用户模式搭 ...
（第7篇）灵活易用易维护的hadoop数据仓库工具——Hive
摘要: Hive灵活易用且易于维护,十分适合数据仓库的统计分析,什么样的结构让它具备这些特性?我们如何才能灵活操作hive呢? 博主福利给大家推荐一套hadoop视频课程 [百度hadoop核心架构 ...
大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之3.数据仓库工具Hive基础
文章目录 1.Hive概述 (1)数仓工具Hive的产生背景 (2)数仓工具Hive与RDBMS对比 (3)数仓工具Hive的优缺点 (4)数仓工具Hive的架构原理 2.Hive安装与配置 (1)安 ...
Hadoop数据仓库工具——Hive
一.什么是Hive: 1)基于Hadoop的数据仓库解决方案 - 将结构化的数据文件映射为数据库表 - 提供类sql的查询语言HQL(Hive Query Language) - Hive让更多的人使 ...
sql 分组求和_数据仓库工具–Hive（归纳笔记第六部分:SQL练习）
写在开头: 本章是Hive教程第六部分,着重于归纳SQL编写. 文章内容输出来源:拉勾教育大数据高薪训练营. 本章将介绍Hive中常见的面试题和自己的解答思路,以供大家训练和记忆. SQL面试题 1. ...
Hadoop 数据仓库工具——Hive
1.安装Mysql a.在官网下载 Mysql 8.0 (mysql-8.0.16-winx64.zip)并解压,地址:https://dev.mysql.com/downloads/mysql/ b ...
sql安装目录下log文件夹_Linux安装Hive数据仓库工具
1.Hive入门教程 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是 ...
数据仓库工具之hive(1)
大数据分析利器之hive 1.数据仓库介绍 1.1 数据仓库的基本概念 1.2 数据仓库的主要特征 1.3 数据仓库与数据库区别 1.4 数据仓库分层架构 2. hive介绍 2.1 什么hive 2 ...

数据仓库工具hive面试题集锦

数据仓库工具hive面试题集锦相关推荐

最新文章

热门文章