Hive精华问答 | Hive的数据模型是怎样的？

Hive是一个数据仓库基础工具，它是建立在Hadoop之上的数据仓库，在某种程度上可以把它看做用户编程接口（API），本身也并不存储和处理数据，依赖于HDFS存储数据，依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据，依赖MR处理数据。

Q：Hive是什么?

A：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本质是将HQL转换为MapReduce程序。

Q：Hive的设计目标是什么?

A：1、Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合，让熟悉SQL编程开发人员能够轻松向Hadoop平台迁移

2、Hive提供类似SQL的查询语言HQL，HQL在底层被转换为相应的MapReduce操作

3、Hive在HDFS上构建数据仓库来存储结构化的数据，这些数据一般来源与HDFS上的原始数据，使用Hive可以对这些数据执行查询、分析等操作。

Q：Hive的数据模型是怎样的？

A：Hive数据库

内部表

外部表

分区

桶

Hive的视图

Hive在创建内部表时，会将数据移动到数据仓库指向的路径，若创建外部表，仅记录数据所在的路径，不对数据位置做任何改变，在删除表的时候，内部表的元数据和数据会被一起删除，外部表只会删除元数据，不删除数据。这样来说，外部表要比内部表安全，数据组织液更加灵活，方便共享源数据。

Q：Hive都有哪些调用方式？

A：1、Hive Shell

2、Thrift

3、JDBC

4、ODBC

Q：Hive的运行机制是什么？

A：1、将sql转换成抽象语法树

2、将抽象语法树转化成查询块

3、将查询块转换成逻辑查询计划(操作符树)

4、将逻辑计划转换成物理计划(M\Rjobs)

福利

扫描添加小编微信，备注“姓名+公司职位”，加入【云计算学习交流群】，和志同道合的朋友们共同打卡学习！

推荐阅读：

OpenStack入门科普，看这一篇就够啦！
优秀工程师必备的一项技能，你解锁了吗？
被窦唯夸奖“音乐好”的刺猬乐队成员竟然是程序员
乔纳森离开苹果；李彦宏被泼水；Windows 公开 Linux 内核源代码 | 开发者周刊
以太坊暗网? 这群北大才子做到了...
智能文本信息抽取算法的进阶与应用
人工智能六十年技术简史

真香，朕在看了！

Hive精华问答 | Hive的数据模型是怎样的？相关推荐

Hive精华问答 | Hive和传统数据库有什么不同?
Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据.它提供了一系列 ...
spark sql 本地调试_Spark精华问答｜Spark的三种运行模式有何区别？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Hadoop精华问答 | NameNode的工作特点
我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,让我们再来看看关于Hadoop的精华问答. 1 Q:NameNode的工作特点 A:NameNode始终在内存中保存met ...
Spark精华问答 | spark的组件构成有哪些？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | spark性能优化方法
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大硬件资源利用率低同一资源的复用率低 2 Q:优化的方向有哪些? ...
Hadoop精华问答 | hadoop能干什么？
Hadoop能够进行大批量数据的离线处理,但是在实时计算上的表现实在是不尽如人意;而Storm就可以担当这部分的角色,今天,就让我们看看关于Storm的精华问答吧. 1 Q:hadoop是什么 A:H ...
Spark精华问答 | Spark的计算方法是什么？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | Spark的三种运行模式有何区别？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

Hive精华问答 | Hive的数据模型是怎样的？

Hive精华问答 | Hive的数据模型是怎样的？相关推荐

最新文章

热门文章