简短介绍下Spark

几个关键词:快速,通用,集群计算平台

Spark扩展了MapReduce计算模型,且支持更多计算模式,包含:

  • 交互式查询
  • 流处理

这里的交互式,不是简单的我们生活中理解的与设备的交互。它的深意是:对于大规模数据集的处理,速度够快。只有速度够快,才能实现交互式操作。

前文提到的,基于内存的数据定义,Spark可以在内存中进行计算。其实,即使不在内存中计算,放在磁盘上,Spark也有很高的性能,比一般的MapReduce要高效。

Spark适用场景:各种需要不同的分布式平台的场景。

Spark将任务整合在统一的框架下支持这些计算,对于多平台的管理,大大降低了管理者的负担。

另外,Spark和其他大数据工具可以密切配合,比如运行在Hadoop集群。

Spark软件栈

从图上可以看出,Spark Core居于核心地位,它是计算引擎,特点是速度快,通用。职能是调度,分发以及监控任务。

Spark Core的性能很棒,所以能够针对不同场景设计更高层次的组件,比如SQL,以及机器学习库等。这些高层组件关系密切,可以互相调用。因此,在Spark上的开发就和我们平时写代码体验相似,这些组件可以简单的组合调用。

得益于组件间的亲密关系,下层改进,上层直接受益。

且在Spark中增加新的组件,其他组件都能马上使用。

六个字:高内聚,低耦合。

书上举的例子:

在应用中将数据流中的数据用机器学习算法进行实时分类。同时,数据分析师可以通过SQL实时查询结果数据,而且还可以通过Python Shell来访问数据,即时分析。

看到这里,大概我们知道了Spark这个解决方案,有着强大的能力,一套系统打遍天下的感觉。

组件简介

Spark Core

实现的是Spark的基本功能,包含:

  • 任务调度
  • 内存管理
  • 错误恢复
  • 存储系统交互
  • 弹性分布式数据集

** Spark SQL**

用于操作结构化数据的程序包。支持多种数据源,如:

  • Hive表
  • Parquet
  • JSON

Spark Streaming

对实时数据进行流式计算。

MLlib

提供的是常见的机器学习功能库,包含:

  • 分类
  • 回归
  • 聚类
  • 协同过滤

同时,还提供了:

  • 模型评估
  • 数据导入

等功能。

Spark设计的这些方法,都可以在集群上轻松伸缩。

GraphX

用于操作关系图(比如社交网络)的程序库,并行计算。

END.

【Spark】Spark是什么相关推荐

  1. Spark——Spark概述

    一.Spark是什么 二.Spark and Hadoop 在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Sp ...

  2. [Spark]Spark Streaming 指南四 输入DStreams和Receivers

    1. 输入DStream与Receiver 输入DStreams表示从源中获取输入数据流的DStreams.在指南一示例中,lines表示输入DStream,它代表从netcat服务器获取的数据流.每 ...

  3. spark spark streaming + kafka receiver方式消费消息

    2019独角兽企业重金招聘Python工程师标准>>> kafka + spark streaming 集群 前提: spark 安装成功,spark 1.6.0 zookeeper ...

  4. 分布式实时计算—Spark—Spark Core

    原文作者:bingoabin 原文地址:Spark Core 目录 一.Spark Core 1. 主要功能 2. Spark Core子框架 3. Spark架构 4. Spark计算模型 二.组件 ...

  5. [Spark]Spark RDD 指南二 初始化

    1. 初始化 Spark程序必须做的第一件事是创建一个JavaSparkContext对象(Scala和Python中是SparkContext对象),它告诉Spark如何访问集群. 要创建Spark ...

  6. [Spark]Spark常用的优化方法

    目录 优化目的 Spark-core的优化 Yarn 模式下动态资源调度 Shuffle阶段调优 MapPartitions分区替换map计算结果 使用foreachPartitions替代forea ...

  7. Spark~Spark介绍

    一.Spark介绍 Spark是用于大规模数据处理的统一分析引擎 Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷.让中间数据存储在内存中提高了运行速度 ...

  8. 大数据之Spark:Spark Core(1)

    目录 1. RDD 详解 1) 为什么要有 RDD? 2) RDD 是什么? 3) RDD 主要属性 总结 2. RDD-API 1) RDD 的创建方式 2) RDD 的算子分类 3) Transf ...

  9. java 启动spark,Spark启动报java.net.ConnectException

    一.报错信息 在Spark集群中的某台机器上执行spark-shell命令时,报错信息如下: 19/02/18 10:41:53 INFO retry.RetryInvocationHandler: ...

  10. 大数据之Spark:Spark 基础

    目录 1.Spark 发展史 2.Spark 为什么会流行 3.Spark 特点 4.Spark 运行模式 1.Spark 发展史 2009 年诞生于美国加州大学伯克利分校 AMP 实验室: 2014 ...

最新文章

  1. Jvm 系列(六):Java 服务 GC 参数调优案例
  2. Asp.NET 获取网站根目录
  3. 【转】三天学好ADO
  4. JAVA_OA(八):springMVC对JDBC的操作小项目a
  5. Java基础---File类,就是这么简单
  6. 服务器登陆地址怎么修改,服务器登陆地址怎么修改
  7. 干货----003----乱码解决方法
  8. 基于openharmony的储物精灵
  9. winpe iso镜像下载(exe转iso获取)
  10. BLDC直流无刷电机的控制方式
  11. 查看linux内存和硬盘
  12. 苏阳乐队杭州巡演后记
  13. JavaWeb之02_tomcat
  14. 关于扁平化界面风格的设计美学讨论
  15. WZOI-314石头剪子布
  16. Spring中过滤器(Filter)和拦截器(Interceptor)的区别和联系
  17. PDF里面复制出来的文章,在word里去掉回车符
  18. js接收java数组对象_js接收并转化Java中的数组对象的方法
  19. SASE:基于数字身份标识的网络与安全访问云服务
  20. 语音群呼 售前营销售后服务一体化

热门文章

  1. CSS样式小项目实战 - 网页变色小按钮
  2. 相机标定(六)—— 张正友标定法
  3. 使用mysql事务管理_MySQL事务管理的介绍(附示例)
  4. python与c 交互原理_PYTHON 与C相互交互调用实例解析
  5. 1977年发生事件_大金蛇:千年银蛇,万年金蛇:1977年【蛇蛇人】11月上旬家里有“爆炸性”事件发生!...
  6. java不带括号_java – 打印数组,不带括号和逗号
  7. java字符串转字符串数组_Java字符串数组到字符串
  8. mac os maven_如何在Mac OS上安装Maven
  9. python初学者教程下载_初学者Python教程
  10. component_春天@Component