spark原理和spark与mapreduce的最大区别
参考文档:https://files.cnblogs.com/files/han-guang-xue/spark1.pdf
参考网址:https://www.cnblogs.com/wangrd/p/6232826.html
对于spark个人理解:
spark与mapreduce最大不同之处:spark是可以将某个特定的且反复使用的数据集的迭代算法高效运行,mapreduce处理数据需要与其他节点的或是框架保持高度并行,无法实现这样的效果
摘自:sanqima
Spark中最核心的概念是RDD(弹性分布式数据集),近年来,随着数据量的不断增长,分布式集群并行计算(如MapReduce、Dryad等)被广泛运用于处理日益增长的数据。这些设计优秀的计算模型大都具有容错性好、可扩展性强、负载平衡、编程方法简单等优点,从而使得它们受到众多企业的青睐,被大多数用户用来进行大规模数据的处理。
但是,MapReduce这些并行计算大都是基于非循环的数据流模型,也就是说,一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中,在计算过程中,不同计算节点之间保持高度并行,这样的数据流模型使得那些需要反复使用一个特定数据集的迭代算法无法高效地运行。
Spark和Spark使用的RDD就是为了解决这种问题而开发出来的,Spark使用了一种特殊设计的数据结构,称为RDD。RDD的一个重要特征是,分布式数据集可以在不同的并行环境当中被重复使用,这个特性将Spark和其他并行数据流模型框架(如MapReduce)区别开。
具体实现:
转载于:https://www.cnblogs.com/han-guang-xue/p/10036225.html
spark原理和spark与mapreduce的最大区别相关推荐
- 加载dict_Python的dict实现原理和Java的HashMap之间的区别
Python内部很地方都使用着dict这种结构,在对象属性__dict__就是一个字典,所以对其效率要求很高. dict采用了哈希表,最低能在 O(1)时间内完成搜索.同样的java的HashMap也 ...
- Spark面试,Spark面试题,Spark面试汇总
Table of Contents 1.你觉得spark 可以完全替代hadoop 么? 2.Spark消费 Kafka,分布式的情况下,如何保证消息的顺序? 3.对于 Spark 中的数据倾斜问题你 ...
- Online Internet Traffic Monitoring System Using Spark Streaming 基于Spark Streaming的在线网络交通监管系统
基于Spark Streaming的在线网络交通监管系统 摘要 由于爆炸增长的网络流量数据,网络管理者必须能够监管整个网络的状况并高效地管理网络资源.传统的网络分析方法通常是单机执行,而这种方式因 ...
- Spark系列之Spark概述
title: Spark系列 What is Apache Spark™? Apache Spark™ is a multi-language engine for executing data en ...
- Spark性能优化 -- Spark SQL、DataFrame、Dataset
本文将详细分析和总结Spark SQL及其DataFrame.Dataset的相关原理和优化过程. Spark SQL简介 Spark SQL是Spark中 具有 大规模关系查询的结构化数据处理 模块 ...
- spark性能优化 -- spark工作原理
从本篇文章开始,将开启 spark 学习和总结之旅,专门针对如何提高 spark 性能进行总结,力图总结出一些干货. 无论你是从事算法工程师,还是数据分析又或是其他与数据相关工作,利用 spark 进 ...
- Spark精华问答 | Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...
- Spark精华问答 | Spark的计算方法是什么?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark做大规模高性能数值计算可以吗?
Spark作为一个用来实现快速而通用的集群计算的平台.扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的.Spark的一个重要特点就是 ...
最新文章
- Python - Sublime Text 3 控制台不能输出中文的解决方法
- keil 器件是空的,Keil的Device为空,不能选择器件
- ITK:从Seed开始迭代图像
- 通过ObjectProvider进行依赖查找
- 谷歌Gboard输入法新增“无痕模式”:仅在Chrome隐身窗口中适用
- Easyspy网络检测系统
- left join后边跟on...and 和where...and的区别
- 权限Permissions
- (原)数据结构之树状数组详解
- centerOS环境变量配置
- jsp错误之The end tag lt;/s:form is unbalanced
- 攻防世界web新手题解题writeup
- 微信小程序开发知识点
- 跨平台移动开发工具:PhoneGap与Titanium全方位比拼
- 【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法
- pycharm安装pip
- java控制台输出脚标上标下标,c – 如何在CLI上打印下标/上标?
- vue项目--资产管理系统
- Unity 简单实现子弹射击
- JavaEE-面试-POI面试回答思路
热门文章
- python数据可视化 - matplotlib专题:带数据标签的双batch的Bar图绘制示例
- stone (组合数学 + Lucas定理)
- php class variable,PHP中的變量類擴展 - 是否可能?
- Activity过渡动画
- java 夯实基础_夯实基础-java equals使用,和 == 的区别
- python︱写markdown一样写网页,代码快速生成web工具:streamlit 缓存(五)
- NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
- fastText分类器
- 倾斜摄影和近景摄影技术
- 46、练习:输出指定目录下的所有文件名称