这部分只讲怎么部署和管理，至于怎么使用这3者进行数据分析，在另外的课程

一、hive

1. what is hive

数据分析人员一般不会使用mr
hive is an apache project originally develed at facebook
适用于非结构化数据的分析

2. how hive works

元数据存在第三方数据库，schema + location

3. hive tables

一个表对应一个hdfs目录，包含这么目录下的所有文件
分为managed和external，external的意义在于数据可能不仅仅被hive使用，可能impala也在用，所以不能用managed

4. 跟RDBMS区别

不追求即时
默认不支持update和delete，可以配置支持

5. architecture

{1} hive metastore server是用来远程管理hive 元数据的服务，即时元数据mysql不在本地，也可以访问到元数据。总共有57张表。

{2} hiveserver2，和1一样都是thrift服务，用来把客户端提交的请求转为mr。HMS和H2一般放在工具节点。

beeline是通过jdbc，hive-shell不是通过jdbc。
beeline -u jdbc:hive2:hiveserver2主机:10000 -n 指定用户
training用户是专门用来学习的，权限很高。如果不指定也没用kerberos，就是匿名用户，权限很低

{3} gateway，就是hive的客户端

{4} zk，用来解决并发问题，引入了锁机制。比如drop一个表时，进行查询，会导致查询不完整。hive依赖zk。

6. hive的部署

{1} 3种部署模式

impala也是通过jdbc访问HMS元数据

二、impala

1. src

apache项目

{1} 和hive联系

sql没有hive的强大，有些函数不支持，更接近关系型数据库的sql
比hive快10到50倍，数据量越大差距越小
和hive共享元数据，impala会自动连接hive的metastore服务，像是双头龙，身体共享，大脑独立。

2. impala shell

3. 架构

{1} 会在每个impalad节点上缓存元数据

{2} 会把结果流式返回给central coordinator node

{3} state store和catalog server分别只需要1个，一般放在管理或工具节点，且放在同一个

state store管理的是impalad的状态
比如连接到d1的impalad，提交了查询，d1的impalad要去state store查找总共有多少impalad可用，然后分发任务
catalog server
用来管理元数据的修改

4. 安装

5. 配置

{1} shortcircuit，查询DN上的数据时，绕过NN，直接去读DN的文件块

{2} 配置impalad的内存

6. 监控

CDH-TXKT-hive、impala相关推荐

SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
转自infoQ! 根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...
hive、impala的客户端，cli、beeline、WebHCat
连接hive有2种形式,hive cli 和 beeline hive提供了以表的形式访问hdfs文件的功能,metastore对外提供表的元数据信息.有了元数据,就可以结构化的表的形式访问hdfs上 ...
CDH部署Hive、Spark、oozie、hue、sqoop等
CDH安装好后,需要进一步设置hive及spark,CDH安装部署参考 CDH安装部署 1.hive安装 1.1 添加服务 1.2 添加hive服务 1.3 将hive服务添加到集群 1.4 配置hi ...
hive、impala 求中位数
hive求中位数: (0.5参数可调) select percentile(cast(p as int),0.5) from student2; impala求中位数: select APPX_MED ...
Hue、Hive、Sentry、Airflow、Oozie
本篇博文主要讲解的是Hue这个开源软件.通过阅读本博客,可以从宏观的角度了解Hue这个应用. 本文介绍了什么是Hue,Hue的架构,Hue的特点,在Hue上面使用Hive的优点,在Hue上浏览文件和数 ...
数据分析：Hive、Pig和Impala
本文主要分享Hadoop三大分析工具:Hive.Pig和Impala. Hive和Pig是高级数据语言,基于Mapreduce,底层处理的时候会转换成Mapreduce去提交,Hive和Pig都是开源 ...
Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包备注:从CDH集群里面拷贝出来下载地址:https://www.cloudera.com/downloads ...
使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
https://www.zybuluo.com/aitanjupt/note/209941 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作〇.摘要一.基础环境二.数据存 ...
全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎，最快的竟是……| 程序员硬核测评...
现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive.SparkSQL.Presto.Impala.HAWQ.ClickHous ...
hadoop、hbase、hive、spark分布式系统架构原理
全栈工程师开发手册 (作者:栾鹏) 架构系列文章机器学习.数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hi ...

CDH-TXKT-hive、impala