CDH-TXKT-hive、impala
这部分只讲怎么部署和管理,至于怎么使用这3者进行数据分析,在另外的课程
一、hive
1. what is hive
数据分析人员一般不会使用mr
hive is an apache project originally develed at facebook
适用于非结构化数据的分析
2. how hive works
元数据存在第三方数据库,schema + location
3. hive tables
一个表对应一个hdfs目录,包含这么目录下的所有文件
分为managed和external,external的意义在于数据可能不仅仅被hive使用,可能impala也在用,所以不能用managed
4. 跟RDBMS区别
不追求即时
默认不支持update和delete,可以配置支持
5. architecture
{1} hive metastore server是用来远程管理hive 元数据的服务,即时元数据mysql不在本地,也可以访问到元数据。总共有57张表。
{2} hiveserver2,和1一样都是thrift服务,用来把客户端提交的请求转为mr。HMS和H2一般放在工具节点。
beeline是通过jdbc,hive-shell不是通过jdbc。
beeline -u jdbc:hive2:hiveserver2主机:10000 -n 指定用户
training用户是专门用来学习的,权限很高。如果不指定也没用kerberos,就是匿名用户,权限很低
{3} gateway,就是hive的客户端
{4} zk,用来解决并发问题,引入了锁机制。比如drop一个表时,进行查询,会导致查询不完整。hive依赖zk。
6. hive的部署
{1} 3种部署模式
impala也是通过jdbc访问HMS元数据
二、impala
1. src
apache项目
{1} 和hive联系
sql没有hive的强大,有些函数不支持,更接近关系型数据库的sql
比hive快10到50倍,数据量越大差距越小
和hive共享元数据,impala会自动连接hive的metastore服务,像是双头龙,身体共享,大脑独立。
2. impala shell
3. 架构
{1} 会在每个impalad节点上缓存元数据
{2} 会把结果流式返回给central coordinator node
{3} state store和catalog server分别只需要1个,一般放在管理或工具节点,且放在同一个
state store管理的是impalad的状态
比如连接到d1的impalad,提交了查询,d1的impalad要去state store查找总共有多少impalad可用,然后分发任务
catalog server
用来管理元数据的修改
4. 安装
5. 配置
{1} shortcircuit,查询DN上的数据时,绕过NN,直接去读DN的文件块
{2} 配置impalad的内存
6. 监控
CDH-TXKT-hive、impala相关推荐
- SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
转自infoQ! 根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...
- hive、impala的客户端,cli、beeline、WebHCat
连接hive有2种形式,hive cli 和 beeline hive提供了以表的形式访问hdfs文件的功能,metastore对外提供表的元数据信息.有了元数据,就可以结构化的表的形式访问hdfs上 ...
- CDH部署Hive、Spark、oozie、hue、sqoop等
CDH安装好后,需要进一步设置hive及spark,CDH安装部署参考 CDH安装部署 1.hive安装 1.1 添加服务 1.2 添加hive服务 1.3 将hive服务添加到集群 1.4 配置hi ...
- hive、impala 求中位数
hive求中位数: (0.5参数可调) select percentile(cast(p as int),0.5) from student2; impala求中位数: select APPX_MED ...
- Hue、Hive、Sentry、Airflow、Oozie
本篇博文主要讲解的是Hue这个开源软件.通过阅读本博客,可以从宏观的角度了解Hue这个应用. 本文介绍了什么是Hue,Hue的架构,Hue的特点,在Hue上面使用Hive的优点,在Hue上浏览文件和数 ...
- 数据分析:Hive、Pig和Impala
本文主要分享Hadoop三大分析工具:Hive.Pig和Impala. Hive和Pig是高级数据语言,基于Mapreduce,底层处理的时候会转换成Mapreduce去提交,Hive和Pig都是开源 ...
- Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包 备注:从CDH集群里面拷贝出来 下载地址:https://www.cloudera.com/downloads ...
- 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作
https://www.zybuluo.com/aitanjupt/note/209941 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作 〇.摘要 一.基础环境 二.数据存 ...
- 全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎,最快的竟是……| 程序员硬核测评...
现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive.SparkSQL.Presto.Impala.HAWQ.ClickHous ...
- hadoop、hbase、hive、spark分布式系统架构原理
全栈工程师开发手册 (作者:栾鹏) 架构系列文章 机器学习.数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hi ...
最新文章
- 智能边缘计算:计算模式的再次轮回
- AI-2048 注释
- inventor扳手制作视频_安全的安全帽是怎么制作出来的?
- linux的as编译文件,Ubuntu Linux14 64位下在Android studio下用gradle编译Andrid项
- 可视化 - pyecharts
- Java 使用 Timer 进行调度
- 简单暴力到dp的优化(初级篇)
- Mssql 跨域查询
- Solve error: Cannot open include file: 'X11/Xlocale.h': No such file or directory
- jdbc mysql url写法_Springboot项目连接MySql写了一个bug你也可能遇到
- 大学计算机基础模拟系统2014综合第三套,秋第三套计算机一级试题.doc
- Hadoop大数据环境搭建保姆级教程(完整版)
- AndroidQ SystemUI之power键灭屏锁屏流程
- MT6627处理器芯片资料介绍
- 32位汇编ebp、ebp-4、ebp+4、ebp+8等含义
- 【CNNVD-201303-018】D-Link DIR-645 Routers 认证绕过漏洞复现
- 北京市门头沟区谷歌卫星地图下载
- 阿里云招聘 | 遇见offer之就要圆你的大厂梦
- ISP算法----基本DPC算法实现代码
- 带有默认参数值的构造函数
热门文章
- 服务器kvm切换器维修,KVM多电脑切换器常见故障排查及处理方法
- 一个web前端专科生面试后的感概
- 我的世界服务器ess配置信息,我的世界有哪些ess指令_ess指令大全_3DM网游
- workbench设置单元坐标系_浅谈Ansys中的几种坐标系
- 稳定的围棋服务器,中国古典围棋服务器对奕说明
- cpu功耗排行_2019.10.31性能和功耗CPU显卡天梯图
- python计算纪念日相关
- 计算机面板里左侧的桌面不见了,WinXP控制面板左侧的切换分类视图不见了如何找回 -电脑资料...
- python中全局变量global的使用
- 《通关!游戏设计之道》给游戏编个故事