hadoop和spark的区别和联系

1、hadoop
1）hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。
Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

2）hadoop优点
Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
可靠性: Hadoop将数据存储在多个备份，Hadoop提供高吞吐量来访问应用程序的数据。
高扩展性： Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性： Hadoop以并行的方式工作，通过并行处理加快处理速度。
高容错性： Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本： Hadoop能够部署在低廉的（low-cost）硬件上。

2、spark
1）spark简介
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点，Spark在Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark性能以及运算速度高于MapReduce。

2）spark优点
计算速度快: 因为spark从磁盘中读取数据，把中间数据放到内存中，，完成所有必须的分析处理，将结果写回集群，所以spark更快。
Spark 提供了大量的库: 包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。
支持多种资源管理器: Spark 支持 Hadoop YARN，及其自带的独立集群管理器
操作简单: 高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身

3、spark与hadoop的不同点
1）应用场景不同
Hadoop和Spark两者都是大数据框架，但是各自应用场景是不同的。Hadoop是一个分布式数据存储架构，它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，降低了硬件的成本。Spark是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它要借助hdfs的数据存储。

2）处理速度不同
hadoop的MapReduce是分步对数据进行处理的，从磁盘中读取数据，进行一次处理，将结果写到磁盘，然后在从磁盘中读取更新后的数据，再次进行的处理，最后再将结果存入磁盘，这存取磁盘的过程会影响处理速度。
spark从磁盘中读取数据，把中间数据放到内存中，，完成所有必须的分析处理，将结果写回集群，所以spark更快。

3）容错性不同
Hadoop将每次处理后的数据都写入到磁盘上，基本谈不上断电或者出错数据丢失的情况。Spark的数据对象存储在弹性分布式数据集 RDD，RDD是分布在一组节点中的只读对象集合，如果数据集一部分丢失，则可以根据于数据衍生过程对它们进行重建。而且RDD 计算时可以通过 CheckPoint 来实现容错。

4、spark与hadoop的联系
Hadoop提供分布式数据存储功能HDFS，还提供了用于数据处理的MapReduce。 MapReduce是可以不依靠spark数据的处理的。当然spark也可以不依靠HDFS进行运作，它可以依靠其它的分布式文件系统。但是两者完全可以结合在一起，hadoop提供分布式集群和分布式文件系统，spark可以依附在hadoop的HDFS代替MapReduce弥补MapReduce计算能力不足的问题。

总结一句话：spark在hadoop肩膀上可以让大数据飞的更高

1、目的：首先需要明确一点，hadoophe spark 这二者都是大数据框架，即便如此二者各自存在的目的是不同的。Hadoop是一个分布式的数据基础设施，它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。Spark是一个专门用来对那些分布式存储的大数据进行处理的工具，spark本身并不会进行分布式数据的存储。

2、两者的部署：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。所以使用Hadoop则可以抛开spark，而直接使用Hadoop自身的mapreduce完成数据的处理。Spark是不提供文件管理系统的，但也不是只能依附在Hadoop上，它同样可以选择其他的基于云的数据系统平台，但spark默认的一般选择的还是hadoop。

3、数据处理速度：Spark，拥有Hadoop、 MapReduce所具有能更好地适用于数据挖掘与机器学习等需要迭代的的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，

Spark 是一种与hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

4、数据安全恢复：Hadoop每次处理的后的数据是写入到磁盘上，所以其天生就能很有弹性的对系统错误进行处理；spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集中，这些数据对象既可以放在内存，也可以放在磁盘，所以spark同样可以完成数据的安全恢复。

hadoop和spark的区别和联系相关推荐

hadoop和spark的区别
hadoop和spark的区别学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下.在研究.学习h ...
认清Hadoop和Spark的这几点区别，学习时才能事半功倍
很多初学Hadoop开发的同学分不清Hadoop和Spark究竟有什么联系? 搞不清Hadoop和Spark是两个独立的框架,还是必须相互依存才能完成工作? 今天就给大家分析一下Hadoop和Spar ...
Hadoop与Alpach Spark的区别
Hadoop与Alpach Spark的区别 1.概述 2.解决问题的层面不一样 3.两者可合可分 4.Spark数据处理速度秒杀MapReduce 5.数据恢复 6.二者的区别总结: 1.概述 ...
Hadoop精华问答 | Hadoop 和Spark有什么区别？
我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,希望通过今天的有问有答深入解读Hadoop的昨天.今天和明天,憧憬下一个十年. 1 Q:Hadoop是什么? A:Hado ...
Hadoop对Spark：正面比拼报告（架构、性能、成本、安全性和机器学习）
来自:网络大数据每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Hadoop和Spark是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据 ...
《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...
1.2 大数据科学以及Hadoop和Spark在其中承担的角色数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统, ...
揭秘Sponge：统一Hadoop、Spark、SDS、Swift的大数据操作系统
揭秘Sponge:统一Hadoop.Spark.SDS.Swift的大数据操作系统 width="22" height="16" src="ht ...
阿里大数据面试题集合：Hadoop+HBase+Spark+Zookeeper
附面试思维导图: Hadoop面试题讲述HDFS上传文件和读文件的流程? HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办? NameNode的作用? 4.NameNode在启动的时候会做哪 ...
详细解释什么是hadoop和spark，及其工作原理
目录一.hadoop一些知识点: 1.HDFS知识: 1.1 HDFS工作机制 1.2 HDFS 写数据流程 1.3 HDFS 读数据流程 2.MapReduce原理 2.1 什么是 MapRedu ...

hadoop和spark的区别和联系

hadoop和spark的区别和联系相关推荐

最新文章

热门文章