mapreduce 和hive 的区别

首先：
1.hive本身只是在hadoop map reduce 或者spark 计算引擎上的封装，应用场景自然更局限，不可能满足所有需求。有些场景是不能用hive来实现，就需要map reduce或者spark rdd编程来实现。
2.结构复杂的日志文件，首先要经过ETL处理（使用mapreduce），得到的数据再有hive处理比较合适。直接让hive处理结构复杂的数据估计很难处理。

小结：业务比较复杂的，还是必须写mapreduce才能实现。
二背景介绍
随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大的情况,可能还会需要在测试环境中多次调试. 总之就是会花比较多的时间在非业务逻辑改动的工作上.
考虑到维护的成本的增大,慢慢的开始准备将MR的作业,逐渐的移植到一些脚本平台上去，hive成了我们的首选。

mr和hive比较
1. 运算资源消耗
无论从时间，数据量，计算量上来看，一般情况下mr都是优于或者等于hive的。mr的灵活性是毋庸置疑的。在转换到hive的过程中，会有一些为了实现某些场景的需求而不得不用多步hive来实现的时候。
2.2. 开发成本/维护成本
毫无疑问，hive的开发成本是远低于mr的。如果能熟练的运用udf和transform会更加提高hvie开发的效率。另外对于数据的操作也非常的直观，对于全世界程序员都喜闻乐见的sql语法的继承也让它更加的容易上手。
hive独有的分区管理，方便进行数据的管理。
代码的管理也很方便，就是直接的文本。
逻辑的修改和生效很方便。
但是当出现异常错误的时候，hive的调试会比较麻烦。特别是在大的生产集群上面的时候。

3. 底层相关性

在使用hive以后，读取文件的时候，再也不用关心文件的格式，文件的分隔符，只要指定一次，hive就会保存好。相比mr来说方便了很多。
当侧重关心与业务相关的内容的时候，用hive会比较有优势。而在一些性能要求高，算法研究的时候，mr会更加适合。

学习网址：https://blog.csdn.net/hemeinvyiqiluoben/article/details/84766841

mapreduce 和hive 的区别相关推荐

Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...
Hbase总结（三）-Hbase与Hive的区别与联系
问题导读: hive与hbase的底层存储是什么? hive是产生的原因是什么? habase是为了弥补hadoop的什么缺陷? 共同点: 1.hbase与hive都是架构在hadoop之上的.都是用 ...
Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...
Hadoop 生态之 MapReduce 及 Hive 简介
作者 | 李一帆杏仁Java工程师.关注后端开发. 1.计算框架 Hadoop 是一个计算框架,目前大型数据计算框架常用的大致有五种: 仅批处理框架:Apache hadoop. 仅流处理框架:Ap ...
mySQL和Hive的区别
SQL和HQL的区别整体 1.存储位置:Hive在Hadoop上:Mysql将数据存储在设备或本地系统中: 2.数据更新:Hive不支持数据的改写和添加,是在加载的时候就已经确定好了:数据库可以CR ...
详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心. 通 ...
大数据学习笔记一：大数据的发展历程--MapReduce，Hive，Yarn，Hadoop，Spark，Flink
大数据学习系列文章:大数据-博客专栏今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...
mapreduce和hive 对山西省汽车销售数据分析
数据样本(使用python处理数据集,这里面就不放上去了,需要私信),下面是处理过的数据,这里我使用的是填充数据,也可以截取数据很多人私信要这个数据文件,由于工作了,CSDN用的少了,不好意思~ 链 ...
mapreduce与spark的区别--内容详细
Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型: Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型) ...
大数据类工程师面试题集锦附指南：互联网公司篇！
大数据工程师是近几年异常火爆的职位,市场需求旺盛,众多互联网公司都打出了高薪招聘的广告,本文整理了网络上部分技术人员分享的各大互联网公司大数据类(Hadoop.Spark等)面试题以及面试时需要注意的 ...

mapreduce 和hive 的区别

mapreduce 和hive 的区别

mapreduce 和hive 的区别相关推荐

最新文章

热门文章