Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

关于Spark首先抛出几个问题:

  • Spark是什么?
  • Spark的优势?(存在价值)
  • Spark主要功能?

剩下的关于Spark的框架原理与具体使用,之后再与大家介绍。

Spark是什么

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

回顾Spark的历史,不得不回顾Hadoop的发展:

2011年Hadoop发布1.x版本,2012年发布稳定版本。1.x在当时存在一些问题:

  • 1)NameNode不能高可用
  • 2)MapReduce框架将资源调度和任务调度耦合在一起
  • 3)MapReduce框架基于磁盘计算,性能较低

2013年10月发布2.x稳定版本,其增加了YARN。Hadoop2.x解决了Hadoop1.x中的向题

  • 1)NameNode高可用——Hadoop HA
  • 2)将资源调度和任务调度解耦
  • 3)计算框架可插拔


Spark框架历史:其源于2009年诞生于加州大学伯克利分校AMPLab项目,采用Scala编写,并于2010年开源;2013年6月该项目成为Apache孵化项目(基于Hadoop问题,将资源和任务调度分开);2014年2月成为Apache顶级项目。

Hadoop2.x与Spark的简单对比:

Spark的特点

1.快

  • 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。

2.易用

  • Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用
  • 而且Spark支持交互式的Python和Scala的Shell,可以非常方便地在这些Shell中使用Spark集群来验证解诀问题的方法。

3.通用

  • Spark提供了统一的解决方案:Spark可以用于,交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX);这些不同类型的处理都可以在同一个应用中无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。

4.兼容性

  • Spark可以非常方便地与其他的开源产品进行融合。
  • 比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark的强大处理能力。

Spark 比 MapReduce 快的原因

1.Spark 基于内存迭代,而 MapReduce基于磁盘迭代

  • MapReduce 的设计:中间结果保存到文件,可以提高可靠性,减少内存占用,但是牺 牲了性能。
  • Spark 的设计:数据在内存中进行交换,要快一些,但是内存这个东西,可靠性比不过 MapReduce。

2.DAG 计算模型在迭代计算上比 MR 的更有效率

  • 在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是 一个有向无环图(DAG)
  • Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型;

一般而言,DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。但是,如果计算过程中涉及数据交换,Spark也是会把shuffle的数据进行落盘。

1)Hadoop MapReduce框架:

  • 从数据源获取数据,经过分析计算后,将结果输出到指定位置,核心是一次计算, 不适合迭代计算。

2)Spark框架:

  • 支持迭代式计算,图形计算
  • Spark框架计算比MR快的原因是:中间结果不落盘
  • 注意:如果计算过程中涉及数据交换,Spark也是会把shuffle的数据进行落盘

有一个误区,Spark是基于内存的计算所以快,这不是主要原因。要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据给Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。Spark基于磁盘的计算也是比Hadoop快。刚刚提到了Spark的DAGScheduler是个改进版的MapReduce,所以Spark天生适合做批处理的任务。Hadoop的MapReduce虽然不如spark性能好,但是HDFS仍然是业界的大数据存储标准。

3.Spark 是粗粒度的资源调度,而 MR 是细粒度的资源调度

Spark主要功能

Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,通过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。

Spark的内置模块如下图所示:

Spark生态圈以HDFS、S3、Techyon等为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎,同时:

  • Spark可以实现MapReduce应用
  • Spark SQL可以实现即席查询
  • Spark Streaming可以处理实时应用
  • Spark MLib可以实现机器学习算法
  • Spark GraphX可以实现图计算
  • SparkR可以实现复杂数学计算

1)Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。

2)Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。

3)Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。

4)Spark MLlib:提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。

5)Spark GraphX:主要用于图形并行计算和图挖掘系统的组件。

6)集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫作独立调度器。

Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。

Spark入门(一)概述相关推荐

  1. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Sp ...

  2. 大数据开发:Spark入门详解

    众所周知,Spark 它是专门为大规模数据处理而设计的快速通用计算引擎,因此Spark它在数据的挖掘等领域便有着非常广泛的应用,而从现阶段来讲的话它也已经形成了一个高速发展并且应用相当广泛的生态系统了 ...

  3. 一起学习Spark入门

    操作系统:CentOS-7.8 Spark版本:2.4.4 本篇文章是一个Spark入门文章,在文章中首先会对Spark进行简单概述,帮助大家先认识Spark,然后会介绍Spark安装部署上的基础知识 ...

  4. Spark入门系列(二)| 1小时学会RDD编程

    作者 | 梁云1991 转载自Python与算法之美(ID:Python_Ai_Road) 导读:本文为 Spark入门系列的第二篇文章,主要介绍 RDD 编程,实操性较强,感兴趣的同学可以动手实现一 ...

  5. Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.1  运行环境说明 1.1.1 硬软件环境 l  主机操作系统:Windows 64位, ...

  6. Spark入门实战系列--5.Hive(下)--Hive实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步   启动HDFS ...

  7. 【核心API开发】Spark入门教程[3]

    本教程源于2016年3月出版书籍<Spark原理.机制及应用> ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍. Spark综合了前人分布式数据处理架构和语言的优缺点,使用简 ...

  8. 【NoSQL】NoSQL入门和概述 - 笔记

    NoSQL入门和概述 BSON BSON 是一种计算机数据交换格式,主要被用作MongoDB数据库中的数据存储和网络传输格式.它是一种二进制表示形式,能用来表示简单数据结构.关联数组(MongoDB中 ...

  9. Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-d ...

  10. Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l&qu ...

最新文章

  1. 11 12 13c语言编程,C语言编程
  2. DOM概述 选取文档元素
  3. 单片机c语言实验,单片机实验C语言编程.doc
  4. 在windows上linux命令行,如何在Windows中通过Cygwin来使用Linux命令行
  5. nginx php如何无响应,nginx,_nginx 可以直接响应服务静态页面吗, 为何配置了很久都不成功?,nginx - phpStudy...
  6. gradle spring_使用Gradle的简单Spring MVC Web应用程序
  7. 对Group_concaT函数利用剖析 (转)
  8. java访问登录网页_===java怎样访问需要登录才能查看的网页????急!!===...
  9. C# 自定义类型转换
  10. 美国IARPA发起公共安全预测机器学习挑战赛(总奖池10万美金)
  11. (4)css2.1选择器
  12. OpenWrt的主Makefile工作过程-转
  13. 求解图的连通块数量——DFS方法实现
  14. 《欲罢不能:刷屏时代如何摆脱行为上瘾》书摘
  15. python3排序,sorted字典排序
  16. 出现顺丰丢件很好办,做好这几点就可无忧
  17. android地图画线,绘制折线-在地图上绘制-开发指南-Android 轻量版地图SDK | 高德地图API...
  18. Win7, VS2019下, pywin32安装
  19. linux 访问windows [ 用于sourceinsight 在windows 访问linux smba时候反应慢的问题]
  20. 深入浅出CChart 每日一课——快乐高四第五十八课 大道至简,炫彩界面库之接口代码优化

热门文章

  1. Ms08067年度技术文集合
  2. IDEA安装翻译插件
  3. 请启封,您的双态IT大会邀请函
  4. FPGA综合项目——SDRAM控制器
  5. chromium 47 Chrome浏览器启动命令行参数
  6. 信号与系统matlab实践实验二,信号与系统matlab实验课后习题答案
  7. 机械制图与计算机绘图的区别,机械制图与计算机绘图教案.doc
  8. java语言获取应用服务器的时间_java如何获得服务器时间
  9. 新编c语言程序设计案例教程 pdf下载,新编C语言程序设计教程本科第章.pdf
  10. python编辑数学公式_最好用的文字与公式编辑器,这套数学笔记神器送给你