一、什么是Hive?

Hive 是一个架构在 Hadoop 之上的数据仓库基础工具,它可以处理结构化和半结构化数据,它使得查询和分析存储在 Hadoop 上的数据变得非常方便。

二、为什么不直接使用Hadoop,而使用Hive?

在没有 Hive 之前,处理数据必须开发复杂的 MapReduce 作业,但现在有了 Hive,你只要开发简单的 SQL 查询就可以达到 MapReduce 作业同样的查询功能。Hive 主要针对的是熟悉 SQL 的用户。Hive 使用的查询语言称为 HiveQL(HQL),它跟 SQL 很像。HiveQL 自动把类 SQL 语句转换成 MapReduce 作业。Hive 对 Hadoop 的复杂性简单化了,而且使用 Hive 并不需要你学习 Java 语言。

Hive 一般在终端执行,并且把 SQL 语句转换成一系列能在 Hadoop 集群执行作业。Apache Hive 可以让存储在 HDFS 的数据以表的方式呈现。

三、Hive的体系架构

1、用户接口(用户访问使用hive的方式):CLI(shell命令行)、JDBC/ODBC(thrift允许外部客户端通过网络与hive交互)、WebGUI(浏览器访问)

2、元数据存储:元数据是表和文件之间的映射关系,通常存储在关系数据库中如mysql/derby等

3、Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器;完成HQL查询语句从词法分析、语法分析、编译、优化及查询计划的生成,生成的查询计划存储在HDFS中,并在随后有执行引擎调用执行

4、执行引擎:hive本身并不直接处理数据文件,而是通过执行引擎处理,支持MapReduce、Tez、Spark3种执行引擎。

大数据之 Hive 教程相关推荐

  1. 大数据之Hive教程

    Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据.它架构在Hadoop之上,总归为大数据,并使得查询和分析方便.并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务 ...

  2. 大数据开发实战教程目录

    大数据开发实战教程目录 一. 课程性质.目的和任务 本课程目的是让学生了解并掌握四个领域 (1)大数据系统的起源及系统特征 (2)大数据系统的架构设计及功能目标设计 (3)大数据系统程序开发.企业大数 ...

  3. 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!

    2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华  条码书号:9787111591979 出版日期 ...

  4. 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  5. 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  6. 大数据入门基础教程系列

    所谓大数据(Big Data),就是需要处理的数据量非常巨大,已经达到了 TB.PB 甚至 EB.ZB 级别,需要成千上万块硬盘才能存储.传统的技术手段在大数据面前不堪一击,只能探索一套新的解决方案. ...

  7. 大数据第三季--Hive(day3)-徐培成-专题视频课程

    大数据第三季--Hive(day3)-1425人已学习 课程介绍         大数据第三季--Hive(day3) 课程收益     大数据第三季--Hive(day3) 讲师介绍     徐培成 ...

  8. 2020年整理的大数据基础入门教程总结和学习路线

    所谓大数据(Big Data),就是需要处理的数据量非常巨大,已经达到了 TB.PB 甚至 EB.ZB 级别,需要成千上万块硬盘才能存储.传统的技术手段在大数据面前不堪一击,只能探索一套新的解决方案. ...

  9. 羲和能源大数据平台使用教程

    羲和能源大数据平台使用教程 随时随地,轻松下载. 全球历史任意位置历史40年和未来7日内预测的 高精度.小时级多种气象数据, 及以此为基准生成的风电.光伏发电功率数据. 同时还可以提供不同位置的地理信 ...

  10. 大数据之Hive入门

    1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...

最新文章

  1. freemarker第三篇
  2. 【控制】《多无人机协同控制技术》周伟老师-第7章-基于多模型预测控制的无人机编队运动控制策略
  3. hdu 4547(LCA+Tarjan)
  4. C语言——迭代法求a的平方根——更新01
  5. 带有天气预报的高大上web报表制作分享
  6. 九宫格 java_java输出九宫格的程序问题
  7. JMeter java.net.SocketException:Operationnotsupported:connect解决方案
  8. php成绩查询系统的学习心得_CPA成绩查询系统开通时间
  9. kubernetest pod为ContainerCreating、ImagePullBackOff状态 怎么办
  10. 网上商城系统源码 B2C电子商务系统源码
  11. 中国遥感卫星地面站存档数据目录服务系统
  12. C++和VC++学习方法
  13. 国内下载Android源码教程
  14. java计算机毕业设计辅导员班级量化管理系统源码+mysql数据库+系统+lw文档+部署
  15. 笔记本CPU处理器HQ,H,U,M,型号之间的区别
  16. cocos2d 物理平抛,斜抛运动
  17. DiskGenius屏蔽硬盘坏道方法
  18. 基于opencv的图像拼接
  19. 买房贷款在什么情况下会被拒? 你避开这些雷区了吗?
  20. 全媒舍:活动策划的几个要点与常用做法

热门文章

  1. 【MATLAB】三角函数
  2. Matlab:实现自定义圆孔阵列远场衍射仿真
  3. CIFAR10 代码分析详解——cifar10_train.py
  4. 显卡煲机测试软件,不用再煲机!这款耳机可自动调音给你提供定制化音频
  5. 振南的 znFAT(前言)
  6. 时频分析 matlab 例程,《Matlab时频分析及其应用》的详细代码
  7. VS2017\VS2019\VS2022项目多余文件(中间文件\临时文件)一键清理BAT
  8. ios崩溃日志收集_iOS 崩溃日志分析(个人总结,最实用)
  9. 计算机的网络测速,电脑怎么网络测速
  10. 思科交换机配置命令(详细命令总结归纳)