spark,hadoop区别

https://zhuanlan.zhihu.com/p/95016937

Spark和Hadoop的区别和比较:

1.原理比较：

Hadoop和Spark都是并行计算，两者都是用MR模型进行计算

Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束；

Spark用户提交的任务称为application，一个application对应一个SparkContext，app中存在多个job，每触发一次action操作就会产生一个job。这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGScheduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset，由TaskScheduler分发到各个executor中执行；executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。

2.数据的存储和处理：

hadoop：

Hadoop实质上更多是一个分布式系统基础架构: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，同时还会索引和跟踪这些数据，大幅度提升大数据处理和分析效率。Hadoop 可以独立完成数据的存储和处理工作，因为其除了提供HDFS分布式数据存储功能，还提供MapReduce数据处理功能。

spark：

Spark 是一个专门用来对那些分布式存储的大数据进行处理的工具，没有提供文件管理系统，自身不会进行数据的存储。它必须和其他的分布式文件系统进行集成才能运作。可以选择Hadoop的HDFS,也可以选择其他平台。

3.处理速度：

hadoop：

Hadoop是磁盘级计算，计算时需要在磁盘中读取数据；其采用的是MapReduce的逻辑，把数据进行切片计算用这种方式来处理大量的离线数据.

spark：

Spark，它会在内存中以接近“实时”的时间完成所有的数据分析。Spark的批处理速度比MapReduce快近10倍，内存中的数据分析速度则快近100倍。

4.恢复性：

hadoop:

Hadoop将每次处理后的数据写入磁盘中，对应对系统错误具有天生优势。

spark:

Spark的数据对象存储在弹性分布式数据集(RDD:)中。“这些数据对象既可放在内存，也可以放在磁盘，所以RDD也提供完整的灾难恢复功能。

5.处理数据：

hadoop:

Hadoop适合处理静态数据，对于迭代式流式数据的处理能力差；

spark:

Spark通过在内存中缓存处理的数据，提高了处理流式数据和迭代式数据的性能；

6.中间结果：

hadoop:

Hadoop中中间结果存放在HDFS中，每次MR都需要刷写-调用，

spark:

而Spark中间结果存放优先存放在内存中，内存不够再存放在磁盘中，不放入HDFS，避免了大量的IO和刷写读取操作；

spark,hadoop区别相关推荐

Hadoop与Alpach Spark的区别
Hadoop与Alpach Spark的区别 1.概述 2.解决问题的层面不一样 3.两者可合可分 4.Spark数据处理速度秒杀MapReduce 5.数据恢复 6.二者的区别总结: 1.概述 ...
hadoop和spark的区别
hadoop和spark的区别学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下.在研究.学习h ...
Spark+hadoop+mllib及相关概念与操作笔记
Spark+hadoop+mllib及相关概念与操作笔记作者: lw 版本: 0.1 时间: 2016-07-18 1.调研相关注意事项 a) 理解调研调研的意义在于了解当前情况,挖掘潜在的问题, ...
Spark集群搭建【Spark+Hadoop+Scala+Zookeeper】
1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚 ...
Storm精华问答 | storm与Hadoop区别？
戳蓝字"CSDN云计算"关注我们哦! Apache Storm是一个分布式实时大数据处理系统.Storm设计用于在容错和水平可扩展方法中处理大量数据.它是一个流数据框架,具有最高的 ...
Spark hadoop票据过期问题HDFS_DELEGATION_TOKEN
Spark streaming应用运行7天之后,自动退出,日志显示token for xxx(用户名): HDFS_DELEGATION_TOKEN owner=xxxx@xxxx.com, rene ...
flink与spark的区别----阅读笔记1
Flink简介 spark基本架构 flink基本架构 Spark提出的最主要抽象概念是弹性分布式数据集(RDD) flink支持增量迭代计算.基于流执行引擎,Flink提供了诸多更高抽象层的API以 ...
Spark Hadoop 环境搭建http://www.jianshu.com/p/5b1eafdf34a9
Spark Hadoop 环境搭建链接地址:http://www.jianshu.com/p/5b1eafdf34a9 来源:简书博文内容与结构: 1.介绍了搭建大数据框架的文件和步骤; 2.包括 ...
【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】
[计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩] https://b23.tv/zKOtd3L 目录一引言1 二系统分析2 2.1 必要性和可行性 ...

spark,hadoop区别

spark,hadoop区别相关推荐

最新文章

热门文章