来源: 软件架构

数据猿官网 | www.datayuan.cn

今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区

Hive是一个构建在Hadoop上的数据仓库框架。最初,Hive是由Facebook开发,后来移交由Apache软件基金会开发,并作为一个Apache开源项目。

Hive和传统数据仓库一样,主要用来协助分析报表,支持决策。与传统数据仓库较大的区别是:Hive 可以处理超大规模的数据,可扩展性和容错性非常强。

Hive 将所有数据存储在HDFS中,并建立在Hadoop 之上,大部分的查询、计算由MapReduce完成。

Hadoop 生态系统

Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。

Hadoop生态系统包含了用于协助Hadoop的不同的子项目(工具)模块,如Sqoop, Pig 和 Hive。

·Sqoop: 它是用来在HDFS和RDBMS之间来回导入和导出数据。

·Pig: 主要用于数据仓库的ETL(Extract-Transformation-Loading)环节。

·Hive: 主要用于数据仓库海量数据的批处理分析。

Hive 和传统数据库的异同

Hive采用了类SQL的查询语言HQL(Hive Query Language),底层还是MapReduce。Hive本身是数据仓库,并不是数据库系统。

Hive数据访问执行延迟高,不适合在线查询数据。

Hive在企业大数据分析平台中的应用

当前企业中部署的大数据分析平台,除Hadoop的基本组件HDFS和MapReduce外,还结合使用Hive、Pig、Hbase、Mahout,从而满足不同业务场景需求。

上图是企业中一种常见的大数据分析平台部署框架 ,在这种部署架构中:

·Hive和Pig用于报表中心,Hive用于分析报表,Pig用于报表中数据的ETL工作。

·HBase用于在线业务,HDFS不支持随机读写操作,而HBase正是为此开发,可较好地支持实时访问数据。

·Mahout 提供一些可扩展的机器学习领域的经典算法实现,用于创建商务智能(BI)应用程序。

Hive 系统架构

下图显示Hive的主要组成模块、Hive如何与Hadoop交互工作、以及从外部访问Hive的几种典型方式。

Hive主要由以下三个模块组成:

·用户接口模块,含CLI、HWI、JDBC、Thrift Server等,用来实现对Hive的访问。CLI是Hive自带的命令行界面;HWI是Hive的一个简单网页界面;JDBC、ODBC以及Thrift Server可向用户提供进行编程的接口,其中Thrift Server是基于Thrift软件框架开发的,提供Hive的RPC通信接口。

·驱动模块(Driver),含编译器、优化器、执行器等,负责把HiveQL语句转换成一系列MR作业,所有命令和查询都会进入驱动模块,通过该模块的解析变异,对计算过程进行优化,然后按照指定的步骤执行。

·元数据存储模块(Metastore),是一个独立的关系型数据库,通常与MySQL数据库连接后创建的一个MySQL实例,也可以是Hive自带的Derby数据库实例。此模块主要保存表模式和其他系统元数据,如表的名称、表的列及其属性、表的分区及其属性、表的属性、表中数据所在位置信息等。

把SQL 转化为MapReduce 任务的步骤

当Hive接收到一条HQL语句后,需要与Hadoop交互工作来完成该操作。HQL首先进入驱动模块,由驱动模块中的编译器解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行。执行器通常启动一个或多个MR任务,有时也不启动(如SELECT * FROM tb1,全表扫描,不存在投影和选择操作)。

END

找大数据,搜数据猿

数据猿读者亲启:

名企&大佬专访精选

向下滑动启阅

以下文字均可点击阅读原文

跨国外企:

丨 丨

中国名企:

丨丨丨

知名学者:

创业明星:

丨丨丨夏粉丨丨丨

知名投资人:

——数据猿专访部

(可上下滑动启阅)

▲向上滑动

采访/报道/投稿

yaphet.zhang@datayuan.cn

商务合作

18600591561(微信)

长按右方二维码

关注我们ˉ►

Hadoop的数据仓库框架-Hive 基础知识及快速入门相关推荐

  1. 电脑键盘功能基础知识,快速入门,抓住这份详细教程

    在互联网生活发达的今天,电脑已经成为了学习工作的必备工具.而用来操作电脑的关键,就是我们经常使用的键盘和鼠标.最近有不少的小伙伴来私信小编,希望小编做一个电脑键盘功能基础知识介绍的详细教程.这不,小编 ...

  2. MyBatis从入门到精通(一)—MyBatis基础知识和快速入门

    Mybatis简介 原始jdbc操作(查询数据) Connection connection = null;PreparedStatement preparedStatement = null;Res ...

  3. 前端框架UMI3基础知识和快速上手

    ----- 基础的介绍得是有的: One:   Umi 是什么? Umi,中文可发音为乌米,是可扩展的企业级前端应用框架.Umi 以路由为基础的,同时支持配置式路由和约定式路由,保证路由的功能完备,并 ...

  4. 基于Hadoop的数据仓库Hive 基础知识

    转载自:namelessml 原文链接:[完]基于Hadoop的数据仓库Hive 基础知识 Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处 ...

  5. Hive基础知识及底层架构

    文章目录 前言 一.Hive基础知识 (一)Hadoop生态系统中的Hive (二)Hive的特点 二.Hive底层架构 (一)Hive组成模块 (二)Hive执行过程和工作原理 三.参考书籍 前言 ...

  6. Android DRM框架与基础知识

    Android DRM框架与基础知识 Android DRM框架 DRM框架的目的:能让安卓设备可以播放更多的内容,不同的内容和硬件设备可能使用的是不同的内容版权保护机制或者没有版权管理机制,但是安卓 ...

  7. [Python图像处理] 一.图像处理基础知识及OpenCV入门函数

    该系列文章是讲解Python OpenCV图像处理知识,前期主要讲解图像入门.OpenCV基础用法,中期讲解图像处理的各种算法,包括图像锐化算子.图像增强技术.图像分割等,后期结合深度学习研究图像识别 ...

  8. Oracle 12C 基础知识与使用入门(修订版)

    Oracle 12C 基础知识与使用入门 ORACLE数据库系统是美国ORACLE(甲骨文)公司提供的一款关系数据库管理系统,可在所有主流平台上运行.Oracle数据库12c 引入了一个新的多承租方架 ...

  9. 音视频开发入门基础知识(视频入门篇)

    RTSP实时音视频开发实战课程:<RTSP实时音视频开发实战> 音视频开发入门基础知识(音频入门篇) 目录 一.前言 二.视频采集和显示 三.视频常见的格式 四.RGB转YUV和YUV转R ...

最新文章

  1. 机房收费系统总结【2】-细节优化
  2. 基于嗅探原理的原始套接字木马
  3. 【Java】Kryo运行报错:Exception in thread “main“ java.lang.IllegalArgumentException:Class is not registered
  4. Java元宵趣图_2019元宵节,猪你元宵节快乐
  5. 实验1 201521410028
  6. linux定位到文件,locate 在linux下快速定位文档
  7. 孔浩老师的java视频
  8. python 趋势跟踪算法_DualThrust区间突破策略Python版
  9. 错误: 找不到符号 符号: 类 ActivityMainBindingImpl
  10. C#nameof用法
  11. linux下find命令的详细说明
  12. 诺基亚wp手机安装linux,1小时搞定 普通用户3步轻松更新WP8.1
  13. math ceil函数python_Python ceil函数
  14. 苹果cmsv10仿爱美剧网自适应美化模板免费模板
  15. 【Qt学习】04 信号-槽 子窗口向主窗口传递参数
  16. 锦州铁路高中2021高考成绩查询入口,锦州高考成绩查询系统
  17. 信息系统项目管理师自学笔记(一)——信息的定义与信息系统
  18. dhcp、tftp及pxe简介
  19. 论项目管理与可行性分析的重要性
  20. “一杯严选”的2019猪年新春贺岁 “福鼎一杯”生态@复联复兴者联盟

热门文章

  1. HUB集线器,交换机,路由器的差异
  2. 常用交换机品牌ONV/光网视解析PoE交换机常见问题
  3. 零基础ECharts 图表 使用 步骤 流程图 详解 与 pc 端自适应
  4. CodeWarriorV6.1在Win10 64位系统下安装及使用
  5. 【List<Map<String, Object>>】记录一次树形遍历方法
  6. Linux配置免密登录单机和全分布
  7. 产品经理所需要知道的专业术语
  8. VTK顶点 面片颜色 呈现
  9. 山东大学众智科学实验一二
  10. Minio分布式集群搭建部署