一、spark工作流程

当一个spark应用被提交时，根据提交参数在相应的位置创建driver进程。
Driver进程启动后，会初始化sparkContext对象，会找到集群master进程，对spark应用程序进行注册
当master收到spark程序的注册申请之后，会发送请求给worker,进行资源的调度和分配
worker收到master的请求后，会为spark应用启动executor进程，会启动一个或多个 executor,具体启动多少个，根据配置来启动
executor启动之后，会向Driver进行反注册，这样Driver就知道哪些executor为它服务了
Driver会根据我们对RDD定义的操作，提交一堆的task去Executor上执行，task里面执行的就是具体的map、flatMap这些操作

二、spark的基本概念

DriverProgram（驱动器）：运行main()方法并创建SparkContext的进程
ClusterManager(也叫master集群管理器) ：用于在集群上申请资源的外部服务
workerNode(工作节点)：集群上运行应用程序代码的任意节点
executor(执行器)：在集群工作节点上为某个应用启动的工作进程，该进程负责运行计算任务，并为应用程序存储数据
job(作业) 一个并行计算作业，由一组任务组成，并由spark的行动（action）算子（save、collect）触发启动，每个Job会根据RDD的宽依赖关系被切分很多Stage，每个Stage中包含一组相同的Task
stage(阶段) 每个job会被分为多个stage，每个stage是由一组并行的task组成的，stage的划分依据就是看是否产生了shuflle(宽依赖)，遇到一个shuflle操作就会划分为前后两个stage
task:执行器的工作单元

一个Application由一个Driver和若干个Job构成，一个Job由多个Stage构成，一个Stage由多个没有Shuffle关系的Task组成。

三、Spark实战

读取文件中的所有内容，计算每个单词出现的次数

object WorldCountScala {def main(args: Array[String]): Unit = {//第一步 创建sparkContextval conf = new SparkConf()conf.setAppName("WorldCountScala") //设置任务名称.setMaster("local") //表示本地执行val sc = new SparkContext(conf)//第二步 加载数据val lineRDD = sc.textFile("D:\\bigdata/hello.txt")//第三步 对数据进行切割val wordRDD = lineRDD.flatMap(_.split(" "))//第四步 迭代words,把每个word转成（word,1）这种形式// val pairRDD = wordRDD.map(word=>(word, 1))val pairRDD = wordRDD.map((_, 1))// 根据key进行分组聚合val wordCountRDD = pairRDD.reduceByKey(_ + _)//将结果打印到控制台wordCountRDD.foreach(wordCount => println(wordCount._1 + "——" + wordCount._2))//停止sparkContextsc.stop()}

运行结果：

Spark 运行架构与原理相关推荐

Spark详解（十一）：Spark运行架构原理分析
1. Spark 运行架构总体分析 1.1 总体介绍 Spark应用程序的运行架构基本上由三部分组成,包括SparkContext(驱动程序).ClusterManger(集群资源管理器)和Execu ...
Spark入门实战系列--4.Spark运行架构
注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Applic ...
第三章 Spark运行模式及原理
第三章 Spark运行模式及原理目录 Spark运行模式概述 Local模式 Standalone模式 Local cluster模式 Mesos模式 YARN standalone/YARN cl ...
Spark SQL架构工作原理及流程解析
Spark SQL架构工作原理及流程解析,spark sql从shark发展而来,Shark为了实现Hive兼容,在HQL方面重用了Hive中HQL的解析.逻辑执行计划翻译.执行计划优化等逻辑. Sp ...
Spark基本架构及原理
目标: Spark概述 Spark基本概念 Spark四大运行模式.运行流程 spark 与 hadoop RDD运行流程 Spark三大类算子 Spark Streaming Spark概述: Ap ...
spark-submit提交参数说明以及与yarn-site.xml中参数的相互约束关系+spark运行架构图解(持续更新中)
因为大型公司都有使用spark/hadoop的官方配置,不太需要个人工程师关心, 这个博客用来给予自己搭建或者小公司使用集群时使用先复习下yarn-site.xml中几个参数的含义[3]: 配置文件 ...
4-spark学习笔记-spark运行模式与原理
尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】
视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...
Spark生态系统和运行架构
Spark是一个可应用于大规模数据处理的快速.通用引擎,spark提供了内存计算和基于DAG的任务调度机制.Spark最大的特点就是将计算数据.中间结果都存储在内存中,因此更适合于迭代运算. 1.Sp ...

Spark 运行架构与原理

一、spark工作流程

二、spark的基本概念

三、Spark实战

Spark 运行架构与原理相关推荐

最新文章

热门文章