Spark是一个基于内存的开源计算框架,于2009年诞生于加州大学伯克利分校AMPLab(AMP:Algorithms,Machines,People),它最初属于伯克利大学的研究性项目,后来在2010年正式开源,并于 2013 年成为了 Apache 基金项目,到2014年便成为 Apache 基金的顶级项目,该项目整个发展历程刚过六年时间,但其发展速度非常惊人。
正由于Spark来自于大学,其整个发展过程都充满了学术研究的标记,是学术带动Spark核心架构的发展,如弹性分布式数据集(RDD,resilient distributed datasets)、流处理(Spark streaming)、机器学习(MLlib)、SQL分析(Spark SQL)和图计算(GraphX)。

一、Spark是什么

Spark,是一种“One Stack to rule them all”的大数据计算框架,是一种基于内存计算的框架,是一种通用的大数据快速处理引擎。

这一站式的计算框架,包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX(图计算)等重要处理组件。

二、Spark的发展历史

2009年诞生于美国加州大学伯克利分校AMP 实验室,

2010年通过BSD许可协议开源发布,

2013年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.0,

2014年2月,Spark 成为 Apache 的顶级项目

2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录

Spark 成功构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中, Spark 在性能和扩展性上都更具优势。

Hadoop 之父Doug Cutting 指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的MapReduce 引擎的使用将下降,由Apache Spark 取代)

Hadoop 商业发行版本的市场领导者Cloudera 、HortonWorks 、MapR 纷纷转投Spark,并把Spark 作为大数据解决方案的首选和核心计算引擎。

2014 年的如此Benchmark 测试中, Spark 秒杀Hadoop ,在使用十分之一计算资源的情况下,相同数据的排序上, Spark 比Map Reduce 快3 倍! 在没有官方PB 排序对比的情况下,首次将S park 推到了IPB 数据(十万亿条记录) 的排序,在使用190 个节点的情况下,工作负载在4 小时内完成, 同样远超雅虎之前使用3800 台主机耗时16 个小时的记录。

2015年6月, Spark 最大的集群来自腾讯–8000 个节点, 单个Job 最大分别是阿里巴巴和Databricks–1PB ,震撼人心!同时,Spark的Contributor 比2014 年涨了3 倍,达到730 人:总代码行数也比2014 年涨了2 倍多,达到40 万行。

IBM 于2015 年6 月承诺大力推进Apache Spark 项目, 并称该项目为:以数据为主导的,未来十年最重要的新的开源项目。这-承诺的核心是将Spark 嵌入IBM 业内领先的分析和商务平台,并将Spark 作为一项服务,在IBMB平台上提供给客户。IBM 还将投入超过3500 名研究和开发人员在全球10余个实验室开展与Spark 相关的项目,并将为Spark 开源生态系统无偿提供突破性的机器学习技术–IBM SystemML。同时,IBM 还将培养超过100 万名Spark 数据科学家和数据工程师。

2016 年,在有“计算界奥运会”之称的国际著名Sort Benchmark全球数据排序大赛中,由南京大学计算机科学与技术系PASA 大数据实验室、阿里巴巴和Databricks 公司组成的参赛因队NADSort,以144美元的成本完成lOOTB 标准数据集的排序处理,创下了每TB 数据排序1.44美元成本的最新世界纪录,比2014 年夺得冠军的加州大学圣地亚哥分校TritonSort团队每TB 数据4.51美元的成本降低了近70%,而这次比赛依旧使用Apache Spark 大数据计算平台,在大规模并行排序算法以及Spark 系统底层进行了大量的优化,以尽可能提高排序计算性能并降低存储资源开销,确保最终赢得比赛。

在FullStack 理想的指引下,Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 、R 五大子框架和库之间可以无缝地共享数据和操作, 这不仅打造了Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势, 而且使得Spark 正在加速成为大数据处理中心首选通用计算平台。

三、Spark的优点

Spark之所以这么受关注,主要是因为其有与其他大数据平台不同的特点,主要如下。

1.轻量级快速处理

与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上.

Spark 实现了高效的 DAG 执行引擎, 可以通过基于内存来高效处理数据流

2.易于使用

Spark 支持 Scala, Java, Python, R 和 SQL 脚本, 并提供了超过 80 种高性能的算法, 非常容易创建并行 App
 而且 Spark 支持交互式的 Python 和 Scala 的 shell, 这意味着可以非常方便地在这些 shell 中使用 Spark 集群来验证解决问题的方法, 而不是像以前一样 需要打包, 上传集群, 验证等. 这对于原型开发非常重要.

3. 通用、支持复杂查询

Spark 结合了SQL, Streaming和复杂分析.
  Spark 提供了大量的类库, 包括 SQL 和 DataFrames, 机器学习(MLlib), 图计算(GraphicX), 实时流处理(Spark Streaming) .
  可以把这些类库无缝的柔和在一个 App 中.
  减少了开发和维护的人力成本以及部署平台的物力成本.

4. 可融合性强

Spark 可以非常方便的与其他开源产品进行融合.
  比如, Spark 可以使用 Hadoop 的 YARN 和 Appache Mesos 作为它的资源管理和调度器, 并且可以处理所有 Hadoop 支持的数据, 包括 HDFS, HBase等.

5.实时的流处理

对比MapReduce只能处理离线数据,Spark还能支持实时流计算。Spark Streaming主要用来对数据进行实时处理,当然在YARN之后Hadoop也可以借助其他的工具进行流式计算。对于Spark Streaming,著名的大数据产品开发公司Cloudera曾经对Spark Streaming有如下评价:

  1. 简单、轻量且具备功能强大的API,Sparks Streaming允许用户快速开发流应用程序。
  2. 容错能力强,不像其他的流解决方案,比如使用Storm需要额外的配置,而Spark无需额外的代码和配置,因为直接使用其上层应用框架Spark Streaming就可以做大量的恢复和交付工作,让Spark的流计算更适应不同的需求。
  3. 集成性好,为流处理和批处理重用了同样的代码,甚至可以将流数据保存到历史数据中(如HDFS)。

6.活跃和不断壮大的社区

Spark起源于2009年,当下已有超过50个机构730个工程师贡献过代码,与2014年6月相比2015年代码行数扩大了近三倍(数据源于Spark Summit 2015公布的数据),这是个惊人的增长

*、本文参考

Spark官网

深入浅出,一文让你了解什么是Spark

Spark入门——什么是Hadoop,为什么是Spark?
spark是什么及发展趋势概述

Spark初识-什么是Spark相关推荐

  1. Spark初识-Spark基本架构概览使用

    当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大 ...

  2. Spark初识-Spark与Hadoop的比较

    Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速.通用.可扩展的大数据分析引擎 Hadoop,是分布式管理.存储.计算的生态系统:包括HDFS(存储).MapRedu ...

  3. Spark学习之Spark初识

    一.什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Had ...

  4. Spark(四) -- Spark工作机制

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq1010885678/article/details/45728173 一.应用执行机制 一个应用 ...

  5. 【原创】大数据基础之Spark(9)spark部署方式yarn/mesos

    1 下载解压 https://spark.apache.org/downloads.html $ wget http://mirrors.shu.edu.cn/apache/spark/spark-2 ...

  6. 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置

    一.Spark SQL简介 1.1.Spark SQL特性 Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持 ...

  7. 学习笔记Spark(二)—— Spark集群的安装配置

    一.我的软件环境 二.Spark集群拓扑 2.1.集群规模 192.168.128.10 master 1.5G ~2G内存.20G硬盘.NAT.1~2核 : 192.168.128.11 node1 ...

  8. 学习笔记Spark(一)—— Spark入门

    一.Spark简介 什么是Spark? 快速.分布式.可扩展.容错的集群计算框架: Spark是基于内存计算的大数据分布式计算框架: 低延迟的复杂分析: Spark是Hadoop MapReduce的 ...

  9. [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子

    [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子 $ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive ...

最新文章

  1. Struts 2框架结构图
  2. 新手坐高铁怎么找车厢_一女子坐高铁回桂平坐过站,到了平南南站,怎么办?...
  3. ViewPager+Fragment基本使用方法(转自网络)
  4. python无法安装tensorflow_python – 无法安装Tensorflow Mac
  5. 如何重新打开Windows防火墙提示?
  6. php url 非根目录,PHP 系统根目录、根URL的判断
  7. ubuntu eclipse for php,ubuntu 安装 Eclipse 支持PHP
  8. 使用STM32或GD32解析xml格式数据
  9. c语言编写单片机中断,C语言AVR单片机中断程序写法
  10. python 爬虫系列之极验滑块打码
  11. 模拟京东快递单号查询
  12. 飞思卡尔mc9s08烧录方法_飞思卡尔8位单片机MC9S08教程
  13. sql如何进行脱敏操作_股市入门基本知识丨大阳线出现后如何进行短线操作
  14. Android开发之连接实体手机进行开发的步骤 遇到的“an app is obsuring...“的问题及解决
  15. Django笔记-实现用户退出登录(logout)
  16. 用word制作电子公章
  17. Linux下stream内存带宽测试参数和示例详解附源码(总结)
  18. html转换为pdf c#,wkhtmltopdf - 直接在C#中将html代码转换为pdf
  19. 算法之路_6、小和问题
  20. IGT-SER通过PLC和触摸屏的通讯口采集设备数据,上报到SQL数据库

热门文章

  1. 这样查生产问题,不做背锅侠
  2. 找TI和ST家的FAE
  3. 银行家算法-C语言实现
  4. 未来展望:Starday供应链火力全开,为跨境电商再添动力!
  5. 电子信息工程专业毕设题目选题推荐
  6. C# 第六章『交互式图形界面』◆第2节:控件(1)
  7. springboot连接微信公众号服务以及给前端签名
  8. Lucene四(Luke工具的使用)
  9. CyclicBarrier和CountDownLatch使用上的区别
  10. 移动硬盘上的linux系统安装软件下载,UNetbootin Linux