https://zhuanlan.zhihu.com/p/95016937

Spark和Hadoop的区别和比较:

1.原理比较:

Hadoop和Spark都是并行计算,两者都是用MR模型进行计算

Hadoop一个作业称为一个Job,Job里面分为Map Task和Reduce Task阶段,每个Task都在自己的进程中运行,当Task结束时,进程也会随之结束;

Spark用户提交的任务称为application,一个application对应一个SparkContext,app中存在多个job,每触发一次action操作就会产生一个job。这些job可以并行或串行执行,每个job中有多个stage,stage是shuffle过程中DAGScheduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个task,组成taskset,由TaskScheduler分发到各个executor中执行;executor的生命周期是和app一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算。

2.数据的存储和处理:

hadoop:

Hadoop实质上更多是一个分布式系统基础架构: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,同时还会索引和跟踪这些数据,大幅度提升大数据处理和分析效率。Hadoop 可以独立完成数据的存储和处理工作,因为其除了提供HDFS分布式数据存储功能,还提供MapReduce数据处理功能。

spark:

Spark 是一个专门用来对那些分布式存储的大数据进行处理的工具,没有提供文件管理系统,自身不会进行数据的存储。它必须和其他的分布式文件系统进行集成才能运作。可以选择Hadoop的HDFS,也可以选择其他平台。

3.处理速度:

hadoop:

Hadoop是磁盘级计算,计算时需要在磁盘中读取数据;其采用的是MapReduce的逻辑,把数据进行切片计算用这种方式来处理大量的离线数据.

spark:

Spark,它会在内存中以接近“实时”的时间完成所有的数据分析。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。

4.恢复性:

hadoop:

Hadoop将每次处理后的数据写入磁盘中,对应对系统错误具有天生优势。

spark:

Spark的数据对象存储在弹性分布式数据集(RDD:)中。“这些数据对象既可放在内存,也可以放在磁盘,所以RDD也提供完整的灾难恢复功能。

5.处理数据:

hadoop:

Hadoop适合处理静态数据,对于迭代式流式数据的处理能力差;

spark:

Spark通过在内存中缓存处理的数据,提高了处理流式数据和迭代式数据的性能;

6.中间结果:

hadoop:

Hadoop中中间结果存放在HDFS中,每次MR都需要刷写-调用,

spark:

而Spark中间结果存放优先存放在内存中,内存不够再存放在磁盘中,不放入HDFS,避免了大量的IO和刷写读取操作;

spark,hadoop区别相关推荐

  1. Hadoop与Alpach Spark的区别

    Hadoop与Alpach Spark的区别 1.概述 2.解决问题的层面不一样 3.两者可合可分 4.Spark数据处理速度秒杀MapReduce 5.数据恢复 6.二者的区别总结: 1.概述    ...

  2. hadoop和spark的区别

    hadoop和spark的区别 学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下.在研究.学习h ...

  3. Spark+hadoop+mllib及相关概念与操作笔记

    Spark+hadoop+mllib及相关概念与操作笔记 作者: lw 版本: 0.1 时间: 2016-07-18 1.调研相关注意事项 a) 理解调研 调研的意义在于了解当前情况,挖掘潜在的问题, ...

  4. Spark集群搭建【Spark+Hadoop+Scala+Zookeeper】

    1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚 ...

  5. Storm精华问答 | storm与Hadoop区别?

    戳蓝字"CSDN云计算"关注我们哦! Apache Storm是一个分布式实时大数据处理系统.Storm设计用于在容错和水平可扩展方法中处理大量数据.它是一个流数据框架,具有最高的 ...

  6. Spark hadoop票据过期问题HDFS_DELEGATION_TOKEN

    Spark streaming应用运行7天之后,自动退出,日志显示token for xxx(用户名): HDFS_DELEGATION_TOKEN owner=xxxx@xxxx.com, rene ...

  7. flink与spark的区别----阅读笔记1

    Flink简介 spark基本架构 flink基本架构 Spark提出的最主要抽象概念是弹性分布式数据集(RDD) flink支持增量迭代计算.基于流执行引擎,Flink提供了诸多更高抽象层的API以 ...

  8. Spark Hadoop 环境搭建http://www.jianshu.com/p/5b1eafdf34a9

    Spark Hadoop 环境搭建 链接地址:http://www.jianshu.com/p/5b1eafdf34a9 来源:简书 博文内容与结构: 1.介绍了搭建大数据框架的文件和步骤; 2.包括 ...

  9. 【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】

    [计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩] https://b23.tv/zKOtd3L 目  录 一 引言​1 二 系统分析​2 2.1 必要性和可行性 ...

最新文章

  1. 微信小程序使用阿里巴巴iconfont字体图标
  2. div嵌套div的居中问题
  3. React (native) 相关知识
  4. Java EE 7:带有Glassfish v4的JMS 2.0
  5. Magento教程 23:如何获取销售报表?
  6. 强化顶层设计 巩固网络安全
  7. 外连接有 OR 关联条件只能走 NL优化
  8. 将下图的nfa确定化为dfa_想要确定一个宝石矿物种,必须要确定这两大因素
  9. UCall能真正的免费打电话,爽
  10. 编译原理教程_5 自底向上分析
  11. 廖雪峰git教程总结
  12. python应用学习(五)——requests爬取网页图片
  13. [BZOJ5064]B-number
  14. 塔城地区谷歌高清卫星地图下载
  15. SEO主要是做什么的?零基础能学习吗?
  16. 蓝绿部署、滚动部署、灰度部署、金丝雀部署
  17. 51、【网工必备】两种常见网络拓扑图介绍,一看就会
  18. python PIL增强或降低图像对比度
  19. TiDB 作为 MySQL Slave 实现实时数据同步
  20. 刀塔2国服服务器都未响应,电脑中玩dota2卡死出现无响应蓝屏红字warning:connection problem如何解决...

热门文章

  1. 继承WebMvcConfigurer 和 WebMvcConfigurerAdapter类依然CORS报错? springboot 两种方式稳定解决跨域问题
  2. 手动将jar包导入pom依赖,让jar包适配本地maven项目
  3. 2022-2028年中国顺丁橡胶行业发展模式分析及市场分析预测报告
  4. RabbitMQ 入门系列(4)— RabbitMQ 启动、停止节点和应用程序、用户管理、权限配置
  5. Ubuntu 安装 ffmpeg
  6. Qt中如何改变三角形图形项的包围盒
  7. 在linux(centos7)下本地仓库的搭建
  8. TinyML-TVM如何驯服TinyML
  9. 结构感知图像修复:ICCV2019论文解析
  10. DialogFragment 的使用