这部分只讲怎么部署和管理,至于怎么使用这3者进行数据分析,在另外的课程

一、hive

1. what is hive

数据分析人员一般不会使用mr
hive is an apache project originally develed at facebook
适用于非结构化数据的分析

2. how hive works

元数据存在第三方数据库,schema + location

3. hive tables

一个表对应一个hdfs目录,包含这么目录下的所有文件
分为managed和external,external的意义在于数据可能不仅仅被hive使用,可能impala也在用,所以不能用managed

4. 跟RDBMS区别

不追求即时
默认不支持update和delete,可以配置支持

5. architecture

{1} hive metastore server是用来远程管理hive 元数据的服务,即时元数据mysql不在本地,也可以访问到元数据。总共有57张表。

{2} hiveserver2,和1一样都是thrift服务,用来把客户端提交的请求转为mr。HMS和H2一般放在工具节点。

beeline是通过jdbc,hive-shell不是通过jdbc。
beeline -u jdbc:hive2:hiveserver2主机:10000 -n 指定用户
training用户是专门用来学习的,权限很高。如果不指定也没用kerberos,就是匿名用户,权限很低

{3} gateway,就是hive的客户端

{4} zk,用来解决并发问题,引入了锁机制。比如drop一个表时,进行查询,会导致查询不完整。hive依赖zk。


6. hive的部署

{1} 3种部署模式

impala也是通过jdbc访问HMS元数据

二、impala

1. src

apache项目

{1} 和hive联系

sql没有hive的强大,有些函数不支持,更接近关系型数据库的sql
比hive快10到50倍,数据量越大差距越小
和hive共享元数据,impala会自动连接hive的metastore服务,像是双头龙,身体共享,大脑独立。

2. impala shell

3. 架构

{1} 会在每个impalad节点上缓存元数据

{2} 会把结果流式返回给central coordinator node

{3} state store和catalog server分别只需要1个,一般放在管理或工具节点,且放在同一个

state store管理的是impalad的状态
比如连接到d1的impalad,提交了查询,d1的impalad要去state store查找总共有多少impalad可用,然后分发任务
catalog server
用来管理元数据的修改

4. 安装

5. 配置

{1} shortcircuit,查询DN上的数据时,绕过NN,直接去读DN的文件块

{2} 配置impalad的内存

6. 监控

CDH-TXKT-hive、impala相关推荐

  1. SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

    转自infoQ! 根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...

  2. hive、impala的客户端,cli、beeline、WebHCat

    连接hive有2种形式,hive cli 和 beeline hive提供了以表的形式访问hdfs文件的功能,metastore对外提供表的元数据信息.有了元数据,就可以结构化的表的形式访问hdfs上 ...

  3. CDH部署Hive、Spark、oozie、hue、sqoop等

    CDH安装好后,需要进一步设置hive及spark,CDH安装部署参考 CDH安装部署 1.hive安装 1.1 添加服务 1.2 添加hive服务 1.3 将hive服务添加到集群 1.4 配置hi ...

  4. hive、impala 求中位数

    hive求中位数: (0.5参数可调) select percentile(cast(p as int),0.5) from student2; impala求中位数: select APPX_MED ...

  5. Hue、Hive、Sentry、Airflow、Oozie

    本篇博文主要讲解的是Hue这个开源软件.通过阅读本博客,可以从宏观的角度了解Hue这个应用. 本文介绍了什么是Hue,Hue的架构,Hue的特点,在Hue上面使用Hive的优点,在Hue上浏览文件和数 ...

  6. 数据分析:Hive、Pig和Impala

    本文主要分享Hadoop三大分析工具:Hive.Pig和Impala. Hive和Pig是高级数据语言,基于Mapreduce,底层处理的时候会转换成Mapreduce去提交,Hive和Pig都是开源 ...

  7. Hive记录-Impala jdbc连接hive和kudu参考

    1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包 备注:从CDH集群里面拷贝出来 下载地址:https://www.cloudera.com/downloads ...

  8. 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作

    https://www.zybuluo.com/aitanjupt/note/209941 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作 〇.摘要 一.基础环境 二.数据存 ...

  9. 全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎,最快的竟是……| 程序员硬核测评...

    现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive.SparkSQL.Presto.Impala.HAWQ.ClickHous ...

  10. hadoop、hbase、hive、spark分布式系统架构原理

    全栈工程师开发手册 (作者:栾鹏) 架构系列文章 机器学习.数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hi ...

最新文章

  1. 智能边缘计算:计算模式的再次轮回
  2. AI-2048 注释
  3. inventor扳手制作视频_安全的安全帽是怎么制作出来的?
  4. linux的as编译文件,Ubuntu Linux14 64位下在Android studio下用gradle编译Andrid项
  5. 可视化 - pyecharts
  6. Java 使用 Timer 进行调度
  7. 简单暴力到dp的优化(初级篇)
  8. Mssql 跨域查询
  9. Solve error: Cannot open include file: 'X11/Xlocale.h': No such file or directory
  10. jdbc mysql url写法_Springboot项目连接MySql写了一个bug你也可能遇到
  11. 大学计算机基础模拟系统2014综合第三套,秋第三套计算机一级试题.doc
  12. Hadoop大数据环境搭建保姆级教程(完整版)
  13. AndroidQ SystemUI之power键灭屏锁屏流程
  14. MT6627处理器芯片资料介绍
  15. 32位汇编ebp、ebp-4、ebp+4、ebp+8等含义
  16. 【CNNVD-201303-018】D-Link DIR-645 Routers 认证绕过漏洞复现
  17. 北京市门头沟区谷歌卫星地图下载
  18. 阿里云招聘 | 遇见offer之就要圆你的大厂梦
  19. ISP算法----基本DPC算法实现代码
  20. 带有默认参数值的构造函数

热门文章

  1. 服务器kvm切换器维修,KVM多电脑切换器常见故障排查及处理方法
  2. 一个web前端专科生面试后的感概
  3. 我的世界服务器ess配置信息,我的世界有哪些ess指令_ess指令大全_3DM网游
  4. workbench设置单元坐标系_浅谈Ansys中的几种坐标系
  5. 稳定的围棋服务器,中国古典围棋服务器对奕说明
  6. cpu功耗排行_2019.10.31性能和功耗CPU显卡天梯图
  7. python计算纪念日相关
  8. 计算机面板里左侧的桌面不见了,WinXP控制面板左侧的切换分类视图不见了如何找回 -电脑资料...
  9. python中全局变量global的使用
  10. 《通关!游戏设计之道》给游戏编个故事