hive使用适用场景_大数据入门:Hive应用场景
在大数据的发展当中,大数据技术生态的组件,也在不断地拓展开来,而其中的Hive组件,作为Hadoop的数据仓库工具,可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享,就主要来讲讲,Hive应用场景。
关于Hive,首先需要明确的一点就是,Hive并非数据库,Hive所提供的数据存储、查询和分析功能,本质上来说,并非传统数据库所提供的存储、查询、分析功能。
Hive数据仓库工具将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。通过类SQL语句实现快速MapReduce统计,使MapReduce编程变得更加简单易行。
Hive应用场景
总的来说,Hive是十分适合数据仓库的统计分析和Windows注册表文件。
Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(Hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询。
Hive更适合于数据仓库的任务,主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。
Hive使用
Hive在Hadoop之上,使用Hive的前提是先要安装Hadoop。
Hive要分析的数据存储在HDFS,Hive为数据创建的表结构(schema),存储在RDMS(relevant database manage system关系型数据库管理系统,比如mysql)。
Hive构建在基于静态批处理的Hadoop之上,Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。
Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,然后返回作业执行结果给用户。Hive的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
Hive优缺点
优点:
操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。
Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
缺点:
1.Hive的HQL表达能力有限
(1)迭代式算法无法表达递归算法
(2)数据挖掘方面不擅长(数据挖掘和算法机器学习)
2.Hive的效率比较低
(1)Hive自动生成的MapReduce作业,通常情况下不够智能化
(2)Hive调优比较困难,粒度较粗(快)
关于大数据入门,Hive应用场景,以上就为大家做了大致的介绍了。在大数据应用场景下,Hive更多是作为Hadoop的一个数据仓库工具,并不直接存储数据,但是却不可或缺。
hive使用适用场景_大数据入门:Hive应用场景相关推荐
- 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略
大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...
- hdfs mv命令_大数据入门:HDFS文件管理系统简介
Hadoop作为大数据主流的基础架构选择,至今仍然占据着重要的地位,而基于Hadoop的分布式文件系统HDFS,也在大数据存储环节发挥着重要的支撑作用.今天的大数据入门分享,我们就主要来讲讲HDFS分 ...
- hive 时间转字符串_大数据面试杀招——Hive高频考点,还不会的进来挨打
一.什么是Hive,为什么要用Hive,你是如何理解Hive? 面试官往往一上来就一个"灵魂三连问",很多没有提前准备好的小伙伴基本回答得都磕磕绊绊,效果不是很好.下面贴出菌哥的回 ...
- 查询hive表_大数据中Hive与HBase的区别与联系
二者区别 Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能. Hive本身不存储和计算数据,它完全依赖于HDFS和MapRe ...
- hive hql文档_大数据学习路线分享hive的运行方式
大数据学习路线分享hive的运行方式,hive的属性设置: 1.在cli端设置 (只针对当前的session) 3.在java代码中设置 (当前连接) 2.在配置文件中设置 (所有session有效) ...
- hive hql文档_大数据学习不能停,看看如何安装hive快800倍!共572.91M视频文档
前言 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可 ...
- 大数据在高校的应用场景_大数据在高校中的应用研究
大数据在高校中的典型应用 很多高校正在使用大数据分析技术解决遇到的实际问题,如美国德克萨斯大学利用大数据技术分析学校用户IT 使用行为产生的数据,确定用户行为异常,审计IT 基础环境,制定安全防护措施 ...
- 大数据在高校的应用场景_大数据技术在高校教育中的应用
龙源期刊网 http://www.qikan.com.cn 大数据技术在高校教育中的应用 作者:金礼模 来源:<无线互联科技> 2017 年第 18 期 摘要:进入 21 世纪以来,科学技 ...
- 大数据在高校的应用场景_大数据在高校教育信息化的应用
[摘要]随着我国经济的发展,科学技术的迅猛提高,信息技术已经逐渐融入到社会的每一个角落,21世纪开始步入信息化时代.随着信息技术的渗透,作为社会生活的重要阵地,高校自然也不会置身事外,信息技术在高校教 ...
最新文章
- request.getRemoteAddr()和request.getRemoteHost()
- 使用resnet训练CIFAR10
- 命令行的基本使用方法(权限)
- 皮一皮:大义灭亲啊这是...
- angularjs-指令ng-disable,ng-repeat,ng-checked
- 注释工具_苹果已购丨Notability丨功能强大而简单易用的笔记及PDF注释工具
- Android设计模式之——观察者模式
- 超级详细Ajax发送请求(接受提示信息或者返回参数)
- mysql下载64位 win7_win7 64位安装MySQL 绝对经典
- Spring之项目中pofile的应用
- 解决能上QQ不能上网页的批处理〖罗斌原创〗
- 有趣的6种图片灰度转换算法
- 事务日志的物理和逻辑构架
- ueditor-图片上传是报错
- 数据分析的升级版本--excel数据对比--代码实现
- matlab仿真高尔顿正态分布源码,童年趣话:从弹珠台到高斯分布
- pearson特征选择matlab,常用的特征选择方法之 Pearson 相关系数
- iOS应用程序安全风险及漏洞解析
- python多条件求和_数据的多条件求和
- 【JWT】JWT JWS JWE | 在线JWS解析工具