mapreduce 和hive 的区别

首先:
1.hive本身只是在hadoop map reduce 或者spark 计算引擎上的封装,应用场景自然更局限,不可能满足所有需求。有些场景是不能用hive来实现,就需要map reduce或者spark rdd编程来实现。
2.结构复杂的日志文件,首先要经过ETL处理(使用mapreduce)得到的数据再有hive处理比较合适。直接让hive处理结构复杂的数据估计很难处理。

小结:业务比较复杂的,还是必须写mapreduce才能实现。
二 背景介绍
随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大的情况,可能还会需要在测试环境中多次调试. 总之就是会花比较多的时间在非业务逻辑改动的工作上.
考虑到维护的成本的增大,慢慢的开始准备将MR的作业,逐渐的移植到一些脚本平台上去,hive成了我们的首选。

mr和hive比较
1. 运算资源消耗
无论从时间,数据量,计算量上来看,一般情况下mr都是优于或者等于hive的。mr的灵活性是毋庸置疑的。在转换到hive的过程中,会有一些为了实现某些场景的需求而不得不用多步hive来实现的时候。
2.2. 开发成本/维护成本
毫无疑问,hive的开发成本是远低于mr的。如果能熟练的运用udf和transform会更加提高hvie开发的效率。另外对于数据的操作也非常的直观,对于全世界程序员都喜闻乐见的sql语法的继承也让它更加的容易上手。
hive独有的分区管理,方便进行数据的管理。
代码的管理也很方便,就是直接的文本
逻辑的修改和生效很方便。
但是当出现异常错误的时候,hive的调试会比较麻烦。特别是在大的生产集群上面的时候。

3. 底层相关性

在使用hive以后,读取文件的时候,再也不用关心文件的格式,文件的分隔符,只要指定一次,hive就会保存好。相比mr来说方便了很多。
侧重关心与业务相关的内容的时候,用hive会比较有优势而在一些性能要求高,算法研究的时候,mr会更加适合。

学习网址:https://blog.csdn.net/hemeinvyiqiluoben/article/details/84766841

mapreduce 和hive 的区别相关推荐

  1. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...

  2. Hbase总结(三)-Hbase与Hive的区别与联系

    问题导读: hive与hbase的底层存储是什么? hive是产生的原因是什么? habase是为了弥补hadoop的什么缺陷? 共同点: 1.hbase与hive都是架构在hadoop之上的.都是用 ...

  3. Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

          纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...

  4. Hadoop 生态之 MapReduce 及 Hive 简介

    作者 | 李一帆 杏仁Java工程师.关注后端开发. 1.计算框架 Hadoop 是一个计算框架,目前大型数据计算框架常用的大致有五种: 仅批处理框架:Apache hadoop. 仅流处理框架:Ap ...

  5. mySQL和Hive的区别

    SQL和HQL的区别 整体 1.存储位置:Hive在Hadoop上:Mysql将数据存储在设备或本地系统中: 2.数据更新:Hive不支持数据的改写和添加,是在加载的时候就已经确定好了:数据库可以CR ...

  6. 详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive

    通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心. 通 ...

  7. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink

    大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...

  8. mapreduce和hive 对山西省汽车销售数据分析

    数据样本(使用python处理数据集,这里面就不放上去了,需要私信),下面是处理过的数据,这里我使用的是填充数据,也可以截取数据 很多人私信要这个数据文件,由于工作了,CSDN用的少了,不好意思~ 链 ...

  9. mapreduce与spark的区别--内容详细

    Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型: Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型) ...

  10. 大数据类工程师面试题集锦附指南:互联网公司篇!

    大数据工程师是近几年异常火爆的职位,市场需求旺盛,众多互联网公司都打出了高薪招聘的广告,本文整理了网络上部分技术人员分享的各大互联网公司大数据类(Hadoop.Spark等)面试题以及面试时需要注意的 ...

最新文章

  1. 将前500页,和中间500页的CVE编号放在一起
  2. 林宙辰:实现机器学习科研从 0 到 1,没有什么比一个好的理论更加实用
  3. 浙大超重力离心模拟与实验装置有望年底开建 释放五大利好
  4. 一步一步学Silverlight 2系列(5):实现简单的拖放功能
  5. java web 嵌套播放器_请教一下tableau如何嵌套进自己开发的javaweb 项目中,谢谢了...
  6. uboot 的 bootcmd 和bootargs参数详解
  7. 专访清华大学姚期智院士:量子计算的未来
  8. Kubernetes-ReplicaSet(RS)(五)
  9. 南开大学滨海学院计算机科学系,【公示】南开大学滨海学院2019届“优秀毕业生”、“十佳毕业生” 评选结果公示...
  10. 蓝桥杯 ALGO-2算法训练 最大最小公倍数(贪心算法)
  11. nginx 启动失败
  12. Assetbundle coustomerScripts
  13. 央行发布洗钱风险自评估指引 12月31日前更新制度
  14. Android 设置wifi共享电脑服务器资源
  15. 基于android手机实时监控ipcam视频之三:H.264的RTP打包解析
  16. 黑苹果制作Clover开机引导脱离U盘,小新Pro13详细教程
  17. 关于SysinternalsSuite全部工具详解
  18. 执行cmd命令提示不是内部或外部命令
  19. Python分析股票行情代码
  20. F. [usaco 2009 dec]游荡的奶牛 总结

热门文章

  1. 导入、配置Vuetify遇到的的几个问题
  2. python调用m文件
  3. wps公式如何加序号_Microsoft Word 插入公式、公式编号及交叉引用完美指南
  4. 移动电源快充QC3.0方案芯片IP5318快充方案
  5. ps cc2019版为什么做图一复制图层就卡死_彻底明白PS的智能对象,它和普通图层到底有啥区别?详细讲解...
  6. 计算机管理模块无法初始化单元,win7组策略提示MMC无法初始化管理单元怎么办...
  7. C语言的lsb算法bmp信息隐藏,基于LSB算法的图像信息隐藏与检测.docx
  8. 阿里云安装图片服务器
  9. xmake经验总结1:解决c++ future/promise抛出std::system_error的问题
  10. hibernate四种状态