spark原理和spark与mapreduce的最大区别

参考文档:https://files.cnblogs.com/files/han-guang-xue/spark1.pdf

参考网址:https://www.cnblogs.com/wangrd/p/6232826.html

对于spark个人理解:

　　spark与mapreduce最大不同之处:spark是可以将某个特定的且反复使用的数据集的迭代算法高效运行,mapreduce处理数据需要与其他节点的或是框架保持高度并行,无法实现这样的效果

　摘自:sanqima

　　Spark中最核心的概念是RDD(弹性分布式数据集)，近年来，随着数据量的不断增长，分布式集群并行计算(如MapReduce、Dryad等)被广泛运用于处理日益增长的数据。这些设计优秀的计算模型大都具有容错性好、可扩展性强、负载平衡、编程方法简单等优点，从而使得它们受到众多企业的青睐，被大多数用户用来进行大规模数据的处理。
　　但是，MapReduce这些并行计算大都是基于非循环的数据流模型，也就是说，一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中，在计算过程中，不同计算节点之间保持高度并行，这样的数据流模型使得那些需要反复使用一个特定数据集的迭代算法无法高效地运行。
　　Spark和Spark使用的RDD就是为了解决这种问题而开发出来的，Spark使用了一种特殊设计的数据结构，称为RDD。RDD的一个重要特征是，分布式数据集可以在不同的并行环境当中被重复使用，这个特性将Spark和其他并行数据流模型框架(如MapReduce)区别开。

具体实现:

转载于:https://www.cnblogs.com/han-guang-xue/p/10036225.html

spark原理和spark与mapreduce的最大区别相关推荐

加载dict_Python的dict实现原理和Java的HashMap之间的区别
Python内部很地方都使用着dict这种结构,在对象属性__dict__就是一个字典,所以对其效率要求很高. dict采用了哈希表,最低能在 O(1)时间内完成搜索.同样的java的HashMap也 ...
Spark面试，Spark面试题，Spark面试汇总
Table of Contents 1.你觉得spark 可以完全替代hadoop 么? 2.Spark消费 Kafka,分布式的情况下,如何保证消息的顺序? 3.对于 Spark 中的数据倾斜问题你 ...
Online Internet Traffic Monitoring System Using Spark Streaming 基于Spark Streaming的在线网络交通监管系统
基于Spark Streaming的在线网络交通监管系统摘要由于爆炸增长的网络流量数据,网络管理者必须能够监管整个网络的状况并高效地管理网络资源.传统的网络分析方法通常是单机执行,而这种方式因 ...
Spark系列之Spark概述
title: Spark系列 What is Apache Spark™? Apache Spark™ is a multi-language engine for executing data en ...
Spark性能优化 -- Spark SQL、DataFrame、Dataset
本文将详细分析和总结Spark SQL及其DataFrame.Dataset的相关原理和优化过程. Spark SQL简介 Spark SQL是Spark中具有大规模关系查询的结构化数据处理模块 ...
spark性能优化 -- spark工作原理
从本篇文章开始,将开启 spark 学习和总结之旅,专门针对如何提高 spark 性能进行总结,力图总结出一些干货. 无论你是从事算法工程师,还是数据分析又或是其他与数据相关工作,利用 spark 进 ...
Spark精华问答 | Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...
Spark精华问答 | Spark的计算方法是什么？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | Spark做大规模高性能数值计算可以吗？
Spark作为一个用来实现快速而通用的集群计算的平台.扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的.Spark的一个重要特点就是 ...

spark原理和spark与mapreduce的最大区别

spark原理和spark与mapreduce的最大区别相关推荐

最新文章

热门文章