Impala的基本概念

1.1 什么是Impala
Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
是CDH平台首选的PB级大数据实时查询分析引擎。

Impala的优缺点

1.2.1 优点

1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。
2)无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。
3)使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。
4)支持各种文件格式,如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。
5)可以访问hive的metastore,对hive数据直接做数据分析。

1.2.2 缺点

1)对内存的依赖大,且完全依赖于hive。
2)实践中,分区超过1万,性能严重下降。
3)只能读取文本文件,而不能直接读取自定义二进制文件。
每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新

1.3 Impala的架构

从上图可以看出,Impala自身包含三个模块:Impalad、Statestore和Catalog,除此之外它还依赖Hive Metastore和HDFS。

1)Impalad:
接收client的请求、Query执行并返回给中心协调节点;
子节点上的守护进程,负责向statestore保持通信,汇报工作。
2)Catalog:
分发表的元数据信息到各个impalad中;
接收来自statestore的所有请求。
3)Statestore:
负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息;
负责query的协调调度

Impala介绍优缺点相关推荐

  1. Impala介绍,Impala架构,Impala安装,impala Shell ,分区创建,refresh,load数据,获取数据的元数据

    1 Impala Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBASE中的PB级大数据.已有的Hive系统虽然也提供了SQL语义, ...

  2. [Kudu基础]--Kudu+Impala介绍 | 微店数据科学团队博客

    感谢原文作者:https://juejin.im/entry/5a72d3d1f265da3e4d730b37 Kudu+Impala介绍 概述 Kudu和Impala均是Cloudera贡献给Apa ...

  3. 图形化开发(一)——Three.js基本介绍-优缺点-在线编辑器 Babylon.JS是最好的JavaScript3D游戏引擎

    图形化开发(一)--Three.js基本介绍-优缺点-在线编辑器 & Babylon.JS是最好的JavaScript3D游戏引擎 课程主要学习目标 Threejs ( 3d ) D3 (做数 ...

  4. Kudu+Impala介绍

    概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目.Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OL ...

  5. impala理论篇之三:impala介绍

    简介 Impala是Cloudera公司主导开发的新型查询系统,是Google Dremel的开源实现.它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hiv ...

  6. 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之5.即席查询Impala介绍及入门使用

    文章目录 前言 1.Impala概述 (1)Impala的概念和优势 (2)Impala的缺点及适用场景 2.Impala的安装与入门 (1)准备工作 (2)制作本地yum源 (3)安装Impala ...

  7. OLAP(三):Impala介绍 、 (和hive/spark对比)、COMPUTE STATS

    一.Impala概述 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎.与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟.换句话说,Impal ...

  8. 四种生成和解析XML文档的方法详解(介绍+优缺点比较+示例)

    众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml- ...

  9. OLAP引擎 :CH Doris impala+kudu优缺点分析

    impala+kuda VS DorisDB

最新文章

  1. k8s 使用Nginx Ingress实现灰度发布和蓝绿发布
  2. Struts2学习笔记-part1: 快速起步
  3. pip 查看安装路径
  4. 当开启了延迟加载的开关,对象是怎么变成代理对象的?
  5. 基于TCP协议实现通信
  6. Pytest Hooks方法之pytest_runtest_makereport获取测试用例结果
  7. IO、NIO、AIO
  8. 服务器主板阵列创建!创建磁盘阵列RAID0、RAID1图文方法
  9. 8. 额外的并发实用程序(Additional Concurrency Utilities)
  10. 增加ssh无密码信任连接的安全性
  11. TikTok十亿MAU增长内幕:横扫全球的时间熔炉
  12. 【电脑讲解】笔记本怎么连接宽带,拨号和无线网络连接方法
  13. python多项式拟合_python中的多元(多项式)最佳拟合曲线?
  14. 7-158 判断4和7的倍数
  15. RocketMQ:The producer group has been created before, specify another name please.
  16. C++计算机视觉库OpenCV在Visual Studio 2022的配置方法
  17. IQ信号,IQ样本,IQ数据,constallation diagram(星座图)
  18. CSS中cursor的属性hander和pointer
  19. 麻省理工学院计算机系硕士课程,麻省理工学院计算机专业研究生申请 你听说过《算法导论吗》?...
  20. android 背光灯分析,Android-Android 触摸屏按键背光灯控制

热门文章

  1. 为什么要使用git pull --rebase?
  2. R语言CRAN软件包Meta分析 1
  3. eclipse代码编辑区字符串自动转义设置
  4. 个人总结的【LaTeX】超高频特殊符号表(仅33个符号)+复杂公式速写解决方案,请查收!
  5. 【李宏毅2020 ML/DL】P53-55 Conditional Generation by RNN Attention Pointer Network Recursive
  6. 【李宏毅2020 ML/DL】P16 PyTorch Tutorial | 最后提及了 apex.amp
  7. Tomcat Insufficient space for shared memory file
  8. apache调优隐藏版本信息及404重定向
  9. typecho 全站ajax,Typecho全站启用HTTPS教程
  10. git 查看修改明细_git查看某个文件的修改历史