在大数据的发展当中,大数据技术生态的组件,也在不断地拓展开来,而其中的Hive组件,作为Hadoop的数据仓库工具,可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享,就主要来讲讲,Hive应用场景。

关于Hive,首先需要明确的一点就是,Hive并非数据库,Hive所提供的数据存储、查询和分析功能,本质上来说,并非传统数据库所提供的存储、查询、分析功能。

Hive数据仓库工具将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。通过类SQL语句实现快速MapReduce统计,使MapReduce编程变得更加简单易行。

Hive应用场景

总的来说,Hive是十分适合数据仓库的统计分析和Windows注册表文件。

Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(Hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询。

Hive更适合于数据仓库的任务,主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive使用

Hive在Hadoop之上,使用Hive的前提是先要安装Hadoop。

Hive要分析的数据存储在HDFS,Hive为数据创建的表结构(schema),存储在RDMS(relevant database manage system关系型数据库管理系统,比如mysql)。

Hive构建在基于静态批处理的Hadoop之上,Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。

Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,然后返回作业执行结果给用户。Hive的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。

Hive优缺点

优点:

操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。

Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。

Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。

Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

缺点:

1.Hive的HQL表达能力有限

(1)迭代式算法无法表达递归算法

(2)数据挖掘方面不擅长(数据挖掘和算法机器学习)

2.Hive的效率比较低

(1)Hive自动生成的MapReduce作业,通常情况下不够智能化

(2)Hive调优比较困难,粒度较粗(快)

关于大数据入门,Hive应用场景,以上就为大家做了大致的介绍了。在大数据应用场景下,Hive更多是作为Hadoop的一个数据仓库工具,并不直接存储数据,但是却不可或缺。

hive使用适用场景_大数据入门:Hive应用场景相关推荐

  1. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

  2. hdfs mv命令_大数据入门:HDFS文件管理系统简介

    Hadoop作为大数据主流的基础架构选择,至今仍然占据着重要的地位,而基于Hadoop的分布式文件系统HDFS,也在大数据存储环节发挥着重要的支撑作用.今天的大数据入门分享,我们就主要来讲讲HDFS分 ...

  3. hive 时间转字符串_大数据面试杀招——Hive高频考点,还不会的进来挨打

    一.什么是Hive,为什么要用Hive,你是如何理解Hive? 面试官往往一上来就一个"灵魂三连问",很多没有提前准备好的小伙伴基本回答得都磕磕绊绊,效果不是很好.下面贴出菌哥的回 ...

  4. 查询hive表_大数据中Hive与HBase的区别与联系

    二者区别 Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能. Hive本身不存储和计算数据,它完全依赖于HDFS和MapRe ...

  5. hive hql文档_大数据学习路线分享hive的运行方式

    大数据学习路线分享hive的运行方式,hive的属性设置: 1.在cli端设置 (只针对当前的session) 3.在java代码中设置 (当前连接) 2.在配置文件中设置 (所有session有效) ...

  6. hive hql文档_大数据学习不能停,看看如何安装hive快800倍!共572.91M视频文档

    前言 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可 ...

  7. 大数据在高校的应用场景_大数据在高校中的应用研究

    大数据在高校中的典型应用 很多高校正在使用大数据分析技术解决遇到的实际问题,如美国德克萨斯大学利用大数据技术分析学校用户IT 使用行为产生的数据,确定用户行为异常,审计IT 基础环境,制定安全防护措施 ...

  8. 大数据在高校的应用场景_大数据技术在高校教育中的应用

    龙源期刊网 http://www.qikan.com.cn 大数据技术在高校教育中的应用 作者:金礼模 来源:<无线互联科技> 2017 年第 18 期 摘要:进入 21 世纪以来,科学技 ...

  9. 大数据在高校的应用场景_大数据在高校教育信息化的应用

    [摘要]随着我国经济的发展,科学技术的迅猛提高,信息技术已经逐渐融入到社会的每一个角落,21世纪开始步入信息化时代.随着信息技术的渗透,作为社会生活的重要阵地,高校自然也不会置身事外,信息技术在高校教 ...

最新文章

  1. request.getRemoteAddr()和request.getRemoteHost()
  2. 使用resnet训练CIFAR10
  3. 命令行的基本使用方法(权限)
  4. 皮一皮:大义灭亲啊这是...
  5. angularjs-指令ng-disable,ng-repeat,ng-checked
  6. 注释工具_苹果已购丨Notability丨功能强大而简单易用的笔记及PDF注释工具
  7. Android设计模式之——观察者模式
  8. 超级详细Ajax发送请求(接受提示信息或者返回参数)
  9. mysql下载64位 win7_win7 64位安装MySQL 绝对经典
  10. Spring之项目中pofile的应用
  11. 解决能上QQ不能上网页的批处理〖罗斌原创〗
  12. 有趣的6种图片灰度转换算法
  13. 事务日志的物理和逻辑构架
  14. ueditor-图片上传是报错
  15. 数据分析的升级版本--excel数据对比--代码实现
  16. matlab仿真高尔顿正态分布源码,童年趣话:从弹珠台到高斯分布
  17. pearson特征选择matlab,常用的特征选择方法之 Pearson 相关系数
  18. iOS应用程序安全风险及漏洞解析
  19. python多条件求和_数据的多条件求和
  20. 【JWT】JWT JWS JWE | 在线JWS解析工具

热门文章

  1. CUPS学习二:CUPS概念介绍。
  2. 大小写字母表(大小写字母表)
  3. echarts漏斗图鼠标移入时内部文字阴影/描边
  4. 微信摇一摇抽奖的H5制作思路
  5. XMPP Client 流程及入门
  6. 面试官问python熟练吗_自学Python面试考官为何给了我3k薪资?看面试官怎么说
  7. python 拼音识别_python识别一段由字母组成的字符串是否是拼音
  8. Echarts实现多个x轴或y轴曲线图
  9. 椭圆隐式方程和参数方程的互相转换
  10. html:简易制作拼多多登录页面