Spark独到见解--1、什么是Spark?及和MR的区别
1、什么是Spark?
ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark是Scala编写,方便快速编程。
2、 Spark与MapReduce的区别?
都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。
3、Spark运行模式
1)Local
多用于本地测试,如在eclipse,idea中写程序测试等。
2)Standalone
Standalone是Spark自带的一个资源调度框架,它支持完全分布式。
3)Yarn
Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。
4)Mesos
资源调度框架。
要基于Yarn来进行资源调度,必须实现AppalicationMaster接口,Spark实现了这个接口,所以可以基于Yarn。
Spark独到见解--1、什么是Spark?及和MR的区别相关推荐
- 2021年大数据Spark(三十一):Spark On Hive
目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...
- 2021年大数据Spark(二十一):Spark Core案例-SogouQ日志分析
目录 案例-SogouQ日志分析 业务需求 准备工作 HanLP 中文分词 样例类 SogouRecord 业务实现 搜索关键词统计 用户搜索点击统计 搜索时 ...
- 2021年大数据Spark(二十):Spark Core外部数据源引入
目录 外部数据源 MySQL 数据源 演示代码 HBase 数据源 HBase Sink HBase Source 外部数据源 Spark可以从外部存储系统读取数据,比如RDBMs表中或 ...
- 2021年大数据Spark(十九):Spark Core的共享变量
目录 共享变量 广播变量 累加器 案例演示 共享变量 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副 ...
- 2021年大数据Spark(十五):Spark Core的RDD常用算子
目录 常用算子 基本算子 分区操作函数算子 重分区函数算子 1).增加分区函数 2).减少分区函数 3).调整分区函数 聚合函数算子 Scala集合中的聚合函数 ...
- Apache Spark源码走读之16 -- spark repl实现详解
欢迎转载,转载请注明出处,徽沪一郎. 概要 之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码 ...
- 写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- 学习笔记Spark(十)—— Spark MLlib应用(2)—— Spark MLlib应用
三.Spark MLlib应用 3.1.Spark ML线性模型 数据准备 基于Spark ML的线性模型需要DataFrame类型的模型数据,DataFrame需要包含:一列标签列,一列由多个特征合 ...
- 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置
一.Spark SQL简介 1.1.Spark SQL特性 Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持 ...
- spark任务shell运行_了解Spark 应用的一生
Spark从被创造至今已经成为了大数据计算引擎中不可或缺的一环,虽然Spark非常的优秀但相比于其他的开源框架依然有着比较高的学习门槛,希望能够通过一种有结构性的,简单直接的方式,为Spark的初学者 ...
最新文章
- iframe改变不了css,iframe css问题
- php编译工具 知乎,关于知乎回答问题编辑框用Ctrl+V 粘贴图片是如何实现的详解...
- 微服务架构下一致性最佳实践
- Snowleopard 截屏
- python语言用法_python语言基本语句用法总结(1.)
- 刷题bingo挑战赛1
- 工作283:从字典表获取数值
- RabbitMQ简单介绍+Windows环境安装
- unity最基本操作
- 生产上线发现重大Bug的思考
- java获取本月最后一天
- 太阳的光和灯光有什么区别_太阳光和灯光有什么区别
- 电脑连无线无法访问云服务器,小编教你如何解决电脑无法连接无线网络
- Mysql部署 MySQL ERROR 1698 (28000) 错误
- 算法设计与分析(python版)-作业一
- 向您推荐一个免费的装修门户网站
- 通过js实现页面布局
- android车载应用市场,车载市场
- 【ArcGIS教程】批量裁剪
- LeetCode 力扣算法题解汇总,All in One