1、什么是Spark?

ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是Scala编写,方便快速编程。

2、 Spark与MapReduce的区别?

都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。

3、Spark运行模式       

1)Local

多用于本地测试,如在eclipse,idea中写程序测试等。

2)Standalone

Standalone是Spark自带的一个资源调度框架,它支持完全分布式。

3)Yarn

Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。

4)Mesos

资源调度框架。

要基于Yarn来进行资源调度,必须实现AppalicationMaster接口,Spark实现了这个接口,所以可以基于Yarn。

     

      


Spark独到见解--1、什么是Spark?及和MR的区别相关推荐

  1. 2021年大数据Spark(三十一):Spark On Hive

    目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...

  2. 2021年大数据Spark(二十一):Spark Core案例-SogouQ日志分析

    目录 案例-SogouQ日志分析 业务需求 准备工作 HanLP 中文分词 样例类 SogouRecord 业务实现 ​​​​​​​搜索关键词统计 ​​​​​​​用户搜索点击统计 ​​​​​​​搜索时 ...

  3. 2021年大数据Spark(二十):Spark Core外部数据源引入

    目录 外部数据源 MySQL 数据源 演示代码 HBase 数据源 HBase Sink ​​​​​​​HBase Source 外部数据源 Spark可以从外部存储系统读取数据,比如RDBMs表中或 ...

  4. 2021年大数据Spark(十九):Spark Core的​​​​​​​共享变量

    目录 共享变量 广播变量 累加器 ​​​​​​​案例演示 共享变量 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副 ...

  5. 2021年大数据Spark(十五):Spark Core的RDD常用算子

    目录 常用算子 基本算子 分区操作函数算子 重分区函数算子 1).增加分区函数 2).减少分区函数 3).调整分区函数 ​​​​​​​聚合函数算子 ​​​​​​​Scala集合中的聚合函数 ​​​​​ ...

  6. Apache Spark源码走读之16 -- spark repl实现详解

    欢迎转载,转载请注明出处,徽沪一郎. 概要 之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码 ...

  7. 写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  8. 学习笔记Spark(十)—— Spark MLlib应用(2)—— Spark MLlib应用

    三.Spark MLlib应用 3.1.Spark ML线性模型 数据准备 基于Spark ML的线性模型需要DataFrame类型的模型数据,DataFrame需要包含:一列标签列,一列由多个特征合 ...

  9. 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置

    一.Spark SQL简介 1.1.Spark SQL特性 Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持 ...

  10. spark任务shell运行_了解Spark 应用的一生

    Spark从被创造至今已经成为了大数据计算引擎中不可或缺的一环,虽然Spark非常的优秀但相比于其他的开源框架依然有着比较高的学习门槛,希望能够通过一种有结构性的,简单直接的方式,为Spark的初学者 ...

最新文章

  1. iframe改变不了css,iframe css问题
  2. php编译工具 知乎,关于知乎回答问题编辑框用Ctrl+V 粘贴图片是如何实现的详解...
  3. 微服务架构下一致性最佳实践
  4. Snowleopard 截屏
  5. python语言用法_python语言基本语句用法总结(1.)
  6. 刷题bingo挑战赛1
  7. 工作283:从字典表获取数值
  8. RabbitMQ简单介绍+Windows环境安装
  9. unity最基本操作
  10. 生产上线发现重大Bug的思考
  11. java获取本月最后一天
  12. 太阳的光和灯光有什么区别_太阳光和灯光有什么区别
  13. 电脑连无线无法访问云服务器,小编教你如何解决电脑无法连接无线网络
  14. Mysql部署 MySQL ERROR 1698 (28000) 错误
  15. 算法设计与分析(python版)-作业一
  16. 向您推荐一个免费的装修门户网站
  17. 通过js实现页面布局
  18. android车载应用市场,车载市场
  19. 【ArcGIS教程】批量裁剪
  20. LeetCode 力扣算法题解汇总,All in One

热门文章

  1. 平面设计师okr_掌握OKR工作法,教你快速提升工作效率
  2. gif一键抠图 在线_高效抠图PS竟全然不是对手?堪称黑科技的AI一键抠图网站
  3. python 查询oracle数据库返回具体字段名
  4. 百度地图根据经纬度定位
  5. JAVA高级工程师知识树
  6. 关于校企合作的一些想法和思路
  7. formidable词根词缀_SAT词根词缀汇总内容(6)
  8. 从上海租房之旅得到的感悟
  9. Visual Studio 拆分C#代码到多个cs文件
  10. Apple PUSH Notication Service (APNS) 配置攻略