Impala是什么?

Impala提高了Apache Hadoop上SQL查询性能的标准,同时保留了熟悉的用户体验。使用Impala,您可以实时查询存储在HDFS或Apache HBase中的数据-包括SELECT,JOIN和聚合函数。此外,Impala使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax),为面向批处理或实时查询提供了一个熟悉且统一的平台。(因此,Hive用户可以以很少的设置开销使用Impala。)它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

架构:

为了避免延迟,Impala避开了MapReduce通过与商业并行RDBMS中非常相似的专用分布式查询引擎直接访问数据。其结果是,性能比Hive快了几个数量级,具体取决于查询和配置的类型。

   优点

  • Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。
  • 省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。
  • Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从而省掉不必要的shuffle、sort等开销。
  • 通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。
  • 用C++实现,做了很多有针对性的硬件优化,例如使用SSE指令。
  • 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。

  功能

  • Impala可以根据Apache许可证作为开源免费提供。
  • Impala支持内存中数据处理,它访问/分析存储在Hadoop数据节点上的数据,而无需数据移动。
  • 使用类SQL查询访问数据。
  • Impala为HDFS中的数据提供了更快的访问。
  • 可以将数据存储在Impala存储系统中,如Apache HBase和Amazon s3。
  • Impala支持各种文件格式,如LZO,序列文件,Avro,RCFile和Parquet。

对于关系数据库和Impala

Impala使用类似于SQL和HiveQL的Query语言。 下表描述了SQL和Impala查询语言之间的一些关键差异。

Hive,Hbase和Impala

虽然Cloudera Impala使用与Hive相同的查询语言,元数据和用户界面,但在某些方面它与Hive和HBase不同。 下表介绍了HBase,Hive和Impala之间的比较分析。

所有这三个数据库 -

是NOSQL数据库。

可用作开源。

支持服务器端脚本。

按照ACID属性,如Durability和Concurrency。

使用分片进行分区。

部分摘自:https://blog.csdn.net/linxiyimeng007/article/details/80943378

初探Apache Impala相关推荐

  1. Apache Impala

    记一次impala的认识与学习. 概念 impala是一个实时的sql查询工具,类似于hive的操作方式,只不过执行的效率极高,号称当下大数据生态圈中执行效率最高的sql类软件. impala来自于c ...

  2. Apache Impala 4.1概览

    Apache Impala 4.1概览 自从Impala 4.0发布后,历时近11个月,Impala 4.1终于发布了!新版本在Iceberg集成.Catalog优化.Parquet/ORC读取性能. ...

  3. Apache Impala : Impala安装部署

    Impala Impala安装部署 安装前提 下载安装包.依赖包 虚拟机新增磁盘(可选) 关机新增磁盘 开机挂载磁盘 配置本地yum源 上传安装包解压 配置本地yum源信息 安装Impala 集群规划 ...

  4. 初探Apache Kylin【麒麟】

    本篇文章就概念.工作机制.数据备份.优势与不足4个方面详细介绍了Apache Kylin. Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎.它通过 ...

  5. Apache Impala: Impala的java开发

    Impala的java开发 在实际工作当中,因为impala的查询比较快,所以可能有会使用到impala来做数据库查询的情况,可以通过java代码来进行操作impala的查询. 下载impala jd ...

  6. Apache Impala总结

    Impala ​ 基于hive,使用内存计算,提供对HDFS.Hbase数据的高性能.低延迟的交互式SQL查询功能.Impala适合用来处理输出数据适中或比较小的查询. 组件简绍 Impala Sta ...

  7. Apache Impala —— 3.4.0版本官方文档百度网盘下载链接

    百度网盘链接: https://pan.baidu.com/s/18OW28Qp–5nEhmwpNosnCw 提取码:pfhw 文档目录内容

  8. 未明确定义列存储过程没问题_使用Apache Kudu和Impala实现存储分层

    当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统.对于快速更新和实时分析工作较多的场景,我们可能希望使用 Apache Kudu ,但是对于低成本的大规模可伸缩性场 ...

  9. 使用Apache Kudu和Impala实现存储分层

    为什么80%的码农都做不了架构师?>>>    当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统.对于快速更新和实时分析工作较多的场景,我们可能希 ...

最新文章

  1. tomcat 7.0 linux下载,Tomcat 7.0.67 发布下载
  2. sharepoint学习
  3. QLineEdit用正则表达式限制double类型输入,double转为9位小数的字符串
  4. redis分布式锁+事务+AOP一起使用注意点
  5. 优化数据库方法 php,PHP优化MYSQL数据库的方法有哪些
  6. Python实现离线字典+听写单词(二):字典数据写进sqlite
  7. .js ruby如何调用_为什么我们喜欢并选择Ruby而不是Node.js?
  8. 交友 它能让霍金有一口伦敦腔,也在帮聋哑人重新开口说话
  9. 树莓派的img文件怎样在vmware虚拟机里面打开
  10. 数据库系统的主要组成部分
  11. 黄太吉如何把煎饼卖到4000万估值
  12. 求解矩阵Ax=b最小二乘问题
  13. 未来的经济——从共享充电宝来看
  14. 2012年广州市户口搭户指南——可以搭到朋友家里?
  15. 3D-MAX真实三维地形制作过程
  16. 植物造型matlab代码,装饰图案的植物造型方法.ppt
  17. 低成本激光线3D扫描
  18. GiliSoft Free Disk Cleaner-很好的系统垃圾清理软件
  19. You have requested to run MSC.Patran on a Windows DESKTOP-(Windows 6.2 (Build 9200: Service Pack 0))
  20. 小程序之wxcharts(图表)

热门文章

  1. CodeForces - 1341F Nastya and Time Machine(dfs+构造)
  2. 牛客 - 动物森友会(二分+最大流)
  3. CodeForces - 246E Blood Cousins Return(树上启发式合并)
  4. 【数据结构】树状数组详解(Leetcode.315)
  5. php时间到期提醒功能,php还剩多长时间过期函数
  6. Win7 od下send断点
  7. 读《Android 安全架构深究》
  8. 如果现在还要设计一个新系统,为什么选择 Kafka 而不是 RabbitMQ?
  9. 只会使用 WaitGroup?你应该学习下 ErrGroup!
  10. 当AV1视频编解码器来到Webex!