Hive精华问答 | Hive的数据模型是怎样的?
Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。
1
Q:Hive是什么?
A:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将HQL转换为MapReduce程序。
2
Q:Hive的设计目标是什么?
A:1、Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合,让熟悉SQL编程开发人员能够轻松向Hadoop平台迁移
2、Hive提供类似SQL的查询语言HQL,HQL在底层被转换为相应的MapReduce操作
3、Hive在HDFS上构建数据仓库来存储结构化的数据,这些数据一般来源与HDFS上的原始数据,使用Hive可以对这些数据执行查询、分析等操作。
3
Q:Hive的数据模型是怎样的?
A:Hive数据库
内部表
外部表
分区
桶
Hive的视图
Hive在创建内部表时,会将数据移动到数据仓库指向的路径,若创建外部表,仅记录数据所在的路径,不对数据位置做任何改变,在删除表的时候,内部表的元数据和数据会被一起删除,外部表只会删除元数据,不删除数据。这样来说,外部表要比内部表安全,数据组织液更加灵活,方便共享源数据。
4
Q:Hive都有哪些调用方式?
A:1、Hive Shell
2、Thrift
3、JDBC
4、ODBC
5
Q:Hive的运行机制是什么?
A:1、将sql转换成抽象语法树
2、将抽象语法树转化成查询块
3、将查询块转换成逻辑查询计划(操作符树)
4、将逻辑计划转换成物理计划(M\Rjobs)
福利
扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
推荐阅读:
OpenStack入门科普,看这一篇就够啦!
优秀工程师必备的一项技能,你解锁了吗?
被窦唯夸奖“音乐好”的刺猬乐队成员竟然是程序员
乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码 | 开发者周刊
以太坊暗网? 这群北大才子做到了...
智能文本信息抽取算法的进阶与应用
人工智能六十年技术简史
真香,朕在看了!
Hive精华问答 | Hive的数据模型是怎样的?相关推荐
- Hive精华问答 | Hive和传统数据库有什么不同?
Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据.它提供了一系列 ...
- spark sql 本地调试_Spark精华问答|Spark的三种运行模式有何区别?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- 写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Hadoop精华问答 | NameNode的工作特点
我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,让我们再来看看关于Hadoop的精华问答. 1 Q:NameNode的工作特点 A:NameNode始终在内存中保存met ...
- Spark精华问答 | spark的组件构成有哪些?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | spark性能优化方法
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大 硬件资源利用率低 同一资源的复用率低 2 Q:优化的方向有哪些? ...
- Hadoop精华问答 | hadoop能干什么?
Hadoop能够进行大批量数据的离线处理,但是在实时计算上的表现实在是不尽如人意;而Storm就可以担当这部分的角色,今天,就让我们看看关于Storm的精华问答吧. 1 Q:hadoop是什么 A:H ...
- Spark精华问答 | Spark的计算方法是什么?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark的三种运行模式有何区别?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
最新文章
- 皮一皮:据说烤红薯都是这样的...
- 穿过代理服务器取远程用户真实IP地址
- Python操作Excel(将父子级表头生成树状结构)
- Swift与Objective-C交互
- Vue第二章,在项目中使用element-ui组件
- SQL基础【十五、join、Inner join、Left join、Right join、Full join】
- Hibernate随机获取指定范围内的指定条目的记录
- 安徽省计算机水平考试试卷,第1次安徽省计算机水平考试试卷.doc
- android 如何叠加view,如何将另一个叠加项添加到android mapview
- H5类似易企秀/编辑器/页面制作/开发/生成工具/软件/源码/授权
- Theme Section HDU - 4763(些许暴力)
- 【CCCC】L2-031 深入虎穴 (25分),,求多叉树最深的节点编号,大水题!!!
- TP5实践小总结(1)
- 用LaTeX输出离散数学符号表
- 网络安全与黑客工具TOP100
- MCU控制继电器的电路详解
- 面试面经 | 2021大疆嵌入式软件工程师笔试题B卷
- 运维工程师与php,php新手入门的基础内容①
- Mybatis 任务二:配置文件深入
- 从特斯拉到爱因斯坦,物理学家为何钟情于猫