大数据之 Hive 教程
一、什么是Hive?
Hive 是一个架构在 Hadoop 之上的数据仓库基础工具,它可以处理结构化和半结构化数据,它使得查询和分析存储在 Hadoop 上的数据变得非常方便。
二、为什么不直接使用Hadoop,而使用Hive?
在没有 Hive 之前,处理数据必须开发复杂的 MapReduce 作业,但现在有了 Hive,你只要开发简单的 SQL 查询就可以达到 MapReduce 作业同样的查询功能。Hive 主要针对的是熟悉 SQL 的用户。Hive 使用的查询语言称为 HiveQL(HQL),它跟 SQL 很像。HiveQL 自动把类 SQL 语句转换成 MapReduce 作业。Hive 对 Hadoop 的复杂性简单化了,而且使用 Hive 并不需要你学习 Java 语言。
Hive 一般在终端执行,并且把 SQL 语句转换成一系列能在 Hadoop 集群执行作业。Apache Hive 可以让存储在 HDFS 的数据以表的方式呈现。
三、Hive的体系架构
1、用户接口(用户访问使用hive的方式):CLI(shell命令行)、JDBC/ODBC(thrift允许外部客户端通过网络与hive交互)、WebGUI(浏览器访问)
2、元数据存储:元数据是表和文件之间的映射关系,通常存储在关系数据库中如mysql/derby等
3、Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器;完成HQL查询语句从词法分析、语法分析、编译、优化及查询计划的生成,生成的查询计划存储在HDFS中,并在随后有执行引擎调用执行
4、执行引擎:hive本身并不直接处理数据文件,而是通过执行引擎处理,支持MapReduce、Tez、Spark3种执行引擎。
大数据之 Hive 教程相关推荐
- 大数据之Hive教程
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据.它架构在Hadoop之上,总归为大数据,并使得查询和分析方便.并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务 ...
- 大数据开发实战教程目录
大数据开发实战教程目录 一. 课程性质.目的和任务 本课程目的是让学生了解并掌握四个领域 (1)大数据系统的起源及系统特征 (2)大数据系统的架构设计及功能目标设计 (3)大数据系统程序开发.企业大数 ...
- 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!
2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华 条码书号:9787111591979 出版日期 ...
- 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy)】
视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...
- 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】
视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...
- 大数据入门基础教程系列
所谓大数据(Big Data),就是需要处理的数据量非常巨大,已经达到了 TB.PB 甚至 EB.ZB 级别,需要成千上万块硬盘才能存储.传统的技术手段在大数据面前不堪一击,只能探索一套新的解决方案. ...
- 大数据第三季--Hive(day3)-徐培成-专题视频课程
大数据第三季--Hive(day3)-1425人已学习 课程介绍 大数据第三季--Hive(day3) 课程收益 大数据第三季--Hive(day3) 讲师介绍 徐培成 ...
- 2020年整理的大数据基础入门教程总结和学习路线
所谓大数据(Big Data),就是需要处理的数据量非常巨大,已经达到了 TB.PB 甚至 EB.ZB 级别,需要成千上万块硬盘才能存储.传统的技术手段在大数据面前不堪一击,只能探索一套新的解决方案. ...
- 羲和能源大数据平台使用教程
羲和能源大数据平台使用教程 随时随地,轻松下载. 全球历史任意位置历史40年和未来7日内预测的 高精度.小时级多种气象数据, 及以此为基准生成的风电.光伏发电功率数据. 同时还可以提供不同位置的地理信 ...
- 大数据之Hive入门
1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...
最新文章
- freemarker第三篇
- 【控制】《多无人机协同控制技术》周伟老师-第7章-基于多模型预测控制的无人机编队运动控制策略
- hdu 4547(LCA+Tarjan)
- C语言——迭代法求a的平方根——更新01
- 带有天气预报的高大上web报表制作分享
- 九宫格 java_java输出九宫格的程序问题
- JMeter java.net.SocketException:Operationnotsupported:connect解决方案
- php成绩查询系统的学习心得_CPA成绩查询系统开通时间
- kubernetest pod为ContainerCreating、ImagePullBackOff状态 怎么办
- 网上商城系统源码 B2C电子商务系统源码
- 中国遥感卫星地面站存档数据目录服务系统
- C++和VC++学习方法
- 国内下载Android源码教程
- java计算机毕业设计辅导员班级量化管理系统源码+mysql数据库+系统+lw文档+部署
- 笔记本CPU处理器HQ,H,U,M,型号之间的区别
- cocos2d 物理平抛,斜抛运动
- DiskGenius屏蔽硬盘坏道方法
- 基于opencv的图像拼接
- 买房贷款在什么情况下会被拒? 你避开这些雷区了吗?
- 全媒舍:活动策划的几个要点与常用做法
热门文章
- 【MATLAB】三角函数
- Matlab:实现自定义圆孔阵列远场衍射仿真
- CIFAR10 代码分析详解——cifar10_train.py
- 显卡煲机测试软件,不用再煲机!这款耳机可自动调音给你提供定制化音频
- 振南的 znFAT(前言)
- 时频分析 matlab 例程,《Matlab时频分析及其应用》的详细代码
- VS2017\VS2019\VS2022项目多余文件(中间文件\临时文件)一键清理BAT
- ios崩溃日志收集_iOS 崩溃日志分析(个人总结,最实用)
- 计算机的网络测速,电脑怎么网络测速
- 思科交换机配置命令(详细命令总结归纳)