详解: Spark 相对于MapReduce的优势(为什么MapReduce性能不理想)
Spark相对于MapReduce的优势
一:MapReduce存在的问题
1**. MapReduce框架局限性**
1)仅支持Map和Reduce两种操作
2)处理效率低效。
a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调度和启动开销大;
b)无法充分利用内存
c)Map端和Reduce端均需要排序
3)不适合迭代计算(如机器学习、图计算等),交互式处理(数据挖掘) 和流式处理(点击日志分析)
2. MapReduce编程不够灵活
- 1)java操作繁琐,维护麻烦,效率低
3. IO 开销
MapReduce每次shuffle都必须写到磁盘中,而Spark的shuffle不一定写到磁盘中,而是可以缓存到内存中,
以便后续的其他迭代操作时直接使用。这样一来,如果任务复杂,需要很多次的shuffle才能完成,
那么Hadoop读写磁盘文件时花费在IO上的时间就会大大增加。
二:Spark
高效(比MapReduce快10~100倍)
1)内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销
2)DAG引擎,减少多次计算之间中间结果写到HDFS的开销
3)使用多线程池模型来减少task启动开稍,shuffle过程中避免 不必要的sort操作以及减少磁盘IO操作
易用
1)提供了丰富的API,支持Java,Scala,Python和R四种语言
2)代码量比MapReduce少2~5倍
与Hadoop集成 读写HDFS/Hbase 与YARN集成
丰富的API(Java、Scala、Python、R四种语言,sort、join等高效算子)
DAG执行引擎,中间结果不落盘
线程池模型减少task启动开销
充分利用内存,减少磁盘IO
避免不必要的排序操作
适合迭代计算,比如机器学习算法
**
三: 容错:
1.当执行中途失败时,MapReduce会从失败处继续执行,因为它是依赖于硬盘驱动器的。
但是Spark就必须从头开始执行,这样MapReduce相对节省了时间。
详解: Spark 相对于MapReduce的优势(为什么MapReduce性能不理想)相关推荐
- 详解 Spark RDD 的转换操作与行动操作
前言 本期继续讲解 Spark 核心 RDD 编程部分,内容比较干货也比较长,建议大家先收藏. 学习目标 RDD 的创建 RDD 的转换操作 RDD 的行动操作 惰性求值 1. RDD 的创建 Spa ...
- 联想首次详解混合云Lenovo xCloud五大优势,如何打造智能化数字底座
多年积累之后,联想混合云品牌Lenovo xCloud主打云原生.智能运维.私有云.多云管理4大产品家族,9款通用解决方案,覆盖客户"建云.上云.用云和管云"的全部场景 6月10日 ...
- linux搭建spark集群,详解Spark+Zookeeper搭建高可用Spark集群
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎:现在形成一个高速发展应用广泛的生态系统. Spark三种分布式部署方式比较 目前Apache Spark支持三种分布式部署方式, ...
- 详解云原生机器学习平台的优势
概述 最近看了很多关于云原生的文章,大体意思是机器学习服务这个行业将迎来一次巨大的变革.从13年我刚入行以来,机器学习在15年左右经历了模型深度的变革,从浅层学习逐步发展到了深度学习.到了20年这个节 ...
- 详解如何充分发挥先验信息优势,用MRC框架解决各类NLP任务
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末阅读原文即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回 ...
- 详解Spark运行模式(local+standalone+yarn)
一.简述 Spark 有多种运行模式: 1.可以运行在一台机器上,称为 Local(本地)运行模式. 2.可以使用 Spark 自带的资源调度系统,称为 Standalone 模式. 3.可以使用 Y ...
- pde与波长 sipm 关系_详解硅光电倍增管的结构特点和优势
硅光电倍增管(SiPM)具有单光子灵敏度,可以检测从近紫外(UV)到近红外(IR)的光波长. 硅光电倍增管(SiPM)是固态高增益辐射检测器,在吸收光子后会产生输出电流脉冲.这些基于PN结的传感器具有 ...
- 详解spark任务提交至yarn的集群和客户端模式
- windows网关详解 【了解网关的重要性,增加网络性能】【FreeXploiT综合文】
理解Windows中的路由表和默认网关 每一个Windows系统中都具有IP路由表,它存储了本地计算机可以到达的网络目的地址范围和如何到达的路由信息.路由表是TCP/IP通信的基础,本地计算机上的任何 ...
最新文章
- C# 多线程修改控件时遇到:创建窗口句柄之前,不能在控件上调用 Invoke 或 BeginInvoke
- oracle nvarchar2,varchar2,char,nchar说明
- opendir、readdir和closedir函数
- Android---- android计量单位--dip、px、sp之间区别与联系pixs =dips * (densityDpi/160). dips=(pixs*160)/d...
- 机器学习第三回——逻辑回归 (Logistic Regression)
- 【poj1284-Primitive Roots】欧拉函数-奇素数的原根个数
- 关于“绞刑架和职业发展”问题带来的思考
- qt编写mysql导出excel_Qt编写数据导出到Excel及Pdf和打印数据
- 在FPGA上完美复刻Windows 95
- 三宝小精灵机器人_三宝小精灵机器人
- 两角和与差的余弦公式的五种推导方法之对比
- mysql建立数据透视表_SQL复习笔记 —— 数据透视表的妙用
- 9367: 【动态规划】雷涛的小猫
- 软件需求工程 高校教学平台 项目总结报告
- android+隐藏邮件地址,“通过 Apple 登录”功能的“隐藏邮件地址”
- Web安全技术—常见的攻击和防御
- 车载通信——CAN收发器与CAN控制器
- 【开发教程10】疯壳·开源蓝牙心率防水运动手环-蓝牙 BLE 收发
- antdprotable defaultExpandAllRows巨坑的坑
- 如何配置高性能的计算机,笔记本电脑如何设置电源计划为高性能
热门文章
- Android:使用 Intent 连接多个活动
- Netty 源码深度解析(九) - 编码
- 计算机名会影响电脑网络吗,电脑接网线会比连WiFi网速快吗【详细介绍】
- 【编译原理笔记06】语法分析,移入-归约分析:自底向上的分析,LR(0)分析法,LR(0)分析表的构建(基于自动机)
- 高速计算机的应用领域概括,[其它课程]计算机基础教案第一篇第一、二章.doc
- 2014最不受欢迎10编程语言种
- 字符串处理 BestCoder Round #43 1001 pog loves szh I
- 老鸟的Python新手教程
- mysql怎样在bat脚本中添加日志_如何在windows下用bat脚本定时备份mysql
- 深入Hadoop磁盘部署的算法