Impala介绍优缺点
Impala的基本概念
1.1 什么是Impala
Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
是CDH平台首选的PB级大数据实时查询分析引擎。
Impala的优缺点
1.2.1 优点
1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。
2)无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。
3)使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。
4)支持各种文件格式,如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。
5)可以访问hive的metastore,对hive数据直接做数据分析。
1.2.2 缺点
1)对内存的依赖大,且完全依赖于hive。
2)实践中,分区超过1万,性能严重下降。
3)只能读取文本文件,而不能直接读取自定义二进制文件。
每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新
1.3 Impala的架构
从上图可以看出,Impala自身包含三个模块:Impalad、Statestore和Catalog,除此之外它还依赖Hive Metastore和HDFS。
1)Impalad:
接收client的请求、Query执行并返回给中心协调节点;
子节点上的守护进程,负责向statestore保持通信,汇报工作。
2)Catalog:
分发表的元数据信息到各个impalad中;
接收来自statestore的所有请求。
3)Statestore:
负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息;
负责query的协调调度
Impala介绍优缺点相关推荐
- Impala介绍,Impala架构,Impala安装,impala Shell ,分区创建,refresh,load数据,获取数据的元数据
1 Impala Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBASE中的PB级大数据.已有的Hive系统虽然也提供了SQL语义, ...
- [Kudu基础]--Kudu+Impala介绍 | 微店数据科学团队博客
感谢原文作者:https://juejin.im/entry/5a72d3d1f265da3e4d730b37 Kudu+Impala介绍 概述 Kudu和Impala均是Cloudera贡献给Apa ...
- 图形化开发(一)——Three.js基本介绍-优缺点-在线编辑器 Babylon.JS是最好的JavaScript3D游戏引擎
图形化开发(一)--Three.js基本介绍-优缺点-在线编辑器 & Babylon.JS是最好的JavaScript3D游戏引擎 课程主要学习目标 Threejs ( 3d ) D3 (做数 ...
- Kudu+Impala介绍
概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目.Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OL ...
- impala理论篇之三:impala介绍
简介 Impala是Cloudera公司主导开发的新型查询系统,是Google Dremel的开源实现.它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hiv ...
- 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之5.即席查询Impala介绍及入门使用
文章目录 前言 1.Impala概述 (1)Impala的概念和优势 (2)Impala的缺点及适用场景 2.Impala的安装与入门 (1)准备工作 (2)制作本地yum源 (3)安装Impala ...
- OLAP(三):Impala介绍 、 (和hive/spark对比)、COMPUTE STATS
一.Impala概述 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎.与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟.换句话说,Impal ...
- 四种生成和解析XML文档的方法详解(介绍+优缺点比较+示例)
众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml- ...
- OLAP引擎 :CH Doris impala+kudu优缺点分析
impala+kuda VS DorisDB
最新文章
- k8s 使用Nginx Ingress实现灰度发布和蓝绿发布
- Struts2学习笔记-part1: 快速起步
- pip 查看安装路径
- 当开启了延迟加载的开关,对象是怎么变成代理对象的?
- 基于TCP协议实现通信
- Pytest Hooks方法之pytest_runtest_makereport获取测试用例结果
- IO、NIO、AIO
- 服务器主板阵列创建!创建磁盘阵列RAID0、RAID1图文方法
- 8. 额外的并发实用程序(Additional Concurrency Utilities)
- 增加ssh无密码信任连接的安全性
- TikTok十亿MAU增长内幕:横扫全球的时间熔炉
- 【电脑讲解】笔记本怎么连接宽带,拨号和无线网络连接方法
- python多项式拟合_python中的多元(多项式)最佳拟合曲线?
- 7-158 判断4和7的倍数
- RocketMQ:The producer group has been created before, specify another name please.
- C++计算机视觉库OpenCV在Visual Studio 2022的配置方法
- IQ信号,IQ样本,IQ数据,constallation diagram(星座图)
- CSS中cursor的属性hander和pointer
- 麻省理工学院计算机系硕士课程,麻省理工学院计算机专业研究生申请 你听说过《算法导论吗》?...
- android 背光灯分析,Android-Android 触摸屏按键背光灯控制
热门文章
- 为什么要使用git pull --rebase?
- R语言CRAN软件包Meta分析 1
- eclipse代码编辑区字符串自动转义设置
- 个人总结的【LaTeX】超高频特殊符号表(仅33个符号)+复杂公式速写解决方案,请查收!
- 【李宏毅2020 ML/DL】P53-55 Conditional Generation by RNN Attention Pointer Network Recursive
- 【李宏毅2020 ML/DL】P16 PyTorch Tutorial | 最后提及了 apex.amp
- Tomcat Insufficient space for shared memory file
- apache调优隐藏版本信息及404重定向
- typecho 全站ajax,Typecho全站启用HTTPS教程
- git 查看修改明细_git查看某个文件的修改历史