hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句, 像操作关系数据库一样操作文件内容, 比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。通过参考网上几篇不错的文档, 有点小心得分享出来。主要的参考链接
http://tech.meituan.com/hive-sql-to-mapreduce.html
http://www.slideshare.net/recruitcojp/internal-hive
注明:本文的图片借用slideshare内容。

hive的整体架构图如下所示, compiler部分负责把HiveSQL转换成MapReduce任务。


基本转换步骤
hiveSQL转换成MapReduce的执行计划包括如下几个步骤:
HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree(操作树)->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树

SQL Parser:Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象 语法树AST Tree;
Semantic Analyzer:遍历AST Tree,抽象出查询的基本组成单元QueryBlock;
Logical plan:遍历QueryBlock,翻译为执行操作树OperatorTree;
Logical plan optimizer: 逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量;
Physical plan:遍历OperatorTree,翻译为MapReduce任务;
Logical plan optimizer:物理层优化器进行MapReduce任务的变换,生成最终的执行计划;

step1: SQL Parser
如下图所示, sql语句可以解析为三个部分
AST中第一个部分对应SQL语句中FROM access_log_hbase a JOIN product_hbase p ON (a.prono=p.prono)。
insert overwrite table对应第二部分。
select a.user, a.prono, p.maker, p.price对应第三部分。

step2: Semantic Analyzer
这个步骤把AST转换成基本的查询块QB,如下图所示
QB的对象包括如下属性:
aliasToTabs:保存表格别名的信息
aliasToSubq:保存子查询的信息
qbm:保存每个输入表的元信息,比如表在HDFS上的路径,保存表数据的文件格式等

QBParseInfo对象包括如下属性:
joinExpr: 保存TOK_JOIN节点信息
destToxx:保存输出和各个操作的ASTNode节点的对应关系。


如下图中, 表格别名a, p保存到aliasTotabs, 分别对应“access_log_hbase", " product_hbase"。
TOK_JOIN信息保存到ParseInfo对象:joinExpr

下图所示,TOK_DESTINATION节点保存到nameToDest属性中。

下图所示,TOK_SELECT节点保存到nameToDest属性中。

step3:Logical Plan
该步骤是把查询块QB转换操作树。
操作树基本的操作符包括TableScanOperator,SelectOperator,FilterOperator,JoinOperator,GroupByOperator,ReduceSinkOperator。
TableScanOperator: 扫描数据表中数据,从原表中取数据。
JoinOperator完成Join操作。
FilterOperator完成过滤操作, 对应sql里面的where语句功能
ReduceSinkOperator:标志着Hive Map阶段的结束, Reduce阶段的开始。
SelectOperator:reduce阶段输出select中的列
FileSinkOperator: 生成结果数据到输出文件。

从两个输入表格中读入数据, 用operator树表示为两个TableScanOperator节点


Join放在reduce阶段执行, 执行join节点前,加入两个ReduceSinkOperator节点,表示当前map阶段结束, 进入到reduce阶段

selectoperator节点,从reduce节点获取select指定的列值。

nameToDest ASTNode节点,转换为FileSinkOperator节点, 把结果写入到目标文件。

通过上面几个转换步骤, 最终生成的logical计划树。

logical plan tree还可以通过logical plan optimizer进一步优化, 优化完成的逻辑优化树还有转换成物理执行计划和物理执行计划优化。本文不做详细介绍, 后续有时间再补充。

PS: 查看hive sql编译后的执行计划
hive> explain select * from tablename;

参考文档:
http://tech.meituan.com/hive-sql-to-mapreduce.html
http://www.slideshare.net/recruitcojp/internal-hive
http://lxw1234.com/archives/2015/09/476.htm

作者:wujustin
链接:https://www.jianshu.com/p/660fd157c5eb
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

HSQL转换成MapReduce过程相关推荐

  1. Hive系列之HSQL转换成MapReduce过程

    hive的库.表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句, 像操作关系数据库一样操作文件内容, 比如执行查询,统计,插入等操作.一直很好奇hive是如何做到这些的.通过参考网 ...

  2. Hive的HQL的执行过程(怎么转换成MR、Spark等任务)

    在面试时候,被问到了Hive的HQL是怎么转换成MapReduce任务的,回去查了一下资料并看了一下源码,在这里做一下整理. 编译过程概述 能大致说出编译过程,基本已经是满足面试要求了.HiveSQL ...

  3. mp4转gif在线转换,视频转换成gif动图怎么做?

    转换视频成gif图像是一种既有趣又实用的技巧.如今许多人喜欢在社交媒体上分享gif图像,因为它们可以很好地表达情感或者概念. 如果你有一个视频,想要将其转换成gif图像,那么使用软件来完成这个任务是非 ...

  4. 用 ffmpeg + m3u8-segment 将h264的ES流转换成m3u8的过程记录

    from:http://blog.chinaunix.net/uid-8489474-id-4538230.html 苹果公司的 HLS(HTTP Live Streaming) 使用的是m3u8这种 ...

  5. ASP.Net中实现上传过程中将文本文件转换成PDF的方法

    iTextSharp是一个常用的PDF库,我们可以使用它来创建.修改PDF文件或对PDF文件进行一些其他额外的操作.本文讲述了如何在上传过程中将文本文件转换成PDF的方法. 基本工作 在开始之前,我们 ...

  6. Cisco IP Phone 7960/7940 SCCP firmware 转换成SIP firmware过程

    Cisco IP Phone 7960/7940 SCCP firmware 转换成SIP firmware过程<?xml:namespace prefix = o ns = "urn ...

  7. 后缀为php的怎样转换成m3u8,【过程】第一次将m3u8文件转换为MP4文件经验分享

    因为工作原因,要将之前{中国影视童星大赛}的网络上的回放保存到本地下来,是微信里面的网页,用电脑打开的话,不会有下载按钮, 手机用UC浏览器看视频一般都会有下载按钮, 索性我就用uc下载到手机上再传到 ...

  8. 详述在设有快表的请求分页存储管理系统中,一个虚地址转换成物理内存地址的过程。

    详述在设有快表的请求分页存储管理系统中,一个虚地址转换成物理内存地址的过程. first() {//检索快表if(找到){修改页表项访问位if(是写指令){修改位置为"1";}us ...

  9. 详述在设有快表的请求分页存储管理系统中,一个虚地址转换成物理内存地址的过程。...

    详述在设有快表的请求分页存储管理系统中,一个虚地址转换成物理内存地址的过程. first() {//检索快表if(找到){修改页表项访问位if(是写指令){修改位置为"1";}us ...

最新文章

  1. Android Studio Day03-2(常用操作)
  2. Zxing生成二维码思路和源码解析
  3. 什么是WeakHashMap--转
  4. Html img 标签
  5. oracle 加全文索引,Oracle创建全文索引
  6. ios 不被遮挡 阴影_IOS开发之Bug--iOS7View被导航栏遮挡问题的解决
  7. mac_android_studio_环境搭建
  8. navicat工具把SQL Server数据库转换MySQL数据库
  9. 一段字符串修改某一个位置的值
  10. 大数据---单词释义
  11. 自制简单表单验证relative与absolute定位
  12. php多级查询,MySQL 多级查询
  13. 2018计算机专业考研34所,2018考研:计算机专业全球院校排名公布,上海交通大学竟排第一?...
  14. Chrome development tools学习笔记(3)
  15. react15源码简析(分享PPT)
  16. Delphi7 动态数组
  17. cpt怎么转换成HTML,Excel直接转成模板cpt
  18. AirPlay to Mac 如何工作以及使用它需要什么?
  19. 网站被黑检测与网站被黑处理方法
  20. 【收集】网络上各路大侠放出的面试题、求职技巧

热门文章

  1. 什么是区块链――区块链的分布式数据库、共识机制
  2. 【OCP|052】OCP题库更新,052最新考题及答案整理-第10题
  3. LindDotNetCore~入门基础
  4. c++与unreal 的uc脚本交互
  5. 201612-1-中间数
  6. 帕雷诺的个展“共此时”在沪开幕 体验真实与虚妄的交错人生
  7. The Dandy Lab使用RFID积分方案,提升客户保持率
  8. java解压缩和shell_shell 文件的归档和压缩
  9. JSON与localStorage的爱恨情仇
  10. 【李宏毅2020 ML/DL】补充:Ensemble: Bagging, Boosting, Adaboost, Gradient Boosting, Stacking