spark eventLoop模型

Sprak中，线程之前的交互采用eventLoop模型。

当JobGenerate中的clock达到触发新一次job生成的时间后，并不会直接驱动graph去生成job，而是通过往eventLoop中发送一个JobGenerate事件以触发job生成事件的产生。

private val eventQueue: BlockingQueue[E] = new LinkedBlockingDeque[E]()private val stopped = new AtomicBoolean(false)// Exposed for testing.
private[spark] val eventThread = new Thread(name) {setDaemon(true)override def run(): Unit = {try {while (!stopped.get) {val event = eventQueue.take()try {onReceive(event)} catch {case NonFatal(e) =>try {onError(e)} catch {case NonFatal(e) => logError("Unexpected error in " + name, e)}}}} catch {case ie: InterruptedException => // exit even if eventQueue is not emptycase NonFatal(e) => logError("Unexpected error in " + name, e)}}}

eventLoop维护了一个队列用来存放事件，由于队列的先进先出特性，导致可以按照时间顺序对相关事件进行处理，一个eventLoop也只维护了一个eventThread，将会不断循环往上文所述的队列尝试拉取事件，通过onReceive()方法，这里如果onReceive()方法的事件处理为同步处理，如果阻塞将会导致下一个事件的处理延时。

eventLoop除了在JobGenerate中用来触发job的生成外，还在JobScheduler中用来向消息总线汇报一个任务的启动与完成。

在JobScheduler中，所有job在准备启动前，都会被封装成一个JobHandler，在这个JobHandler的run()方法中，实现了job启动的生命周期行为，并在这个方法中每个job的行为都会通过eventLoop向消息总线报告其行为。

var _eventLoop = eventLoop
if (_eventLoop != null) {_eventLoop.post(JobStarted(job, clock.getTimeMillis()))// Disable checks for existing output directories in jobs launched by the streaming// scheduler, since we may need to write output to an existing directory during checkpoint// recovery; see SPARK-4835 for more details.SparkHadoopWriterUtils.disableOutputSpecValidation.withValue(true) {job.run()}_eventLoop = eventLoopif (_eventLoop != null) {_eventLoop.post(JobCompleted(job, clock.getTimeMillis()))}

类比job，task的生命周期与消息总线的汇报也是通过eventLoop中的，由DAGScheduler实现。DAGScheduler中，job转换为stage这一最重要的步骤，也是通过eventLoop来投递JobSubmitted事件进行通知传递的。

spark eventLoop模型相关推荐

Spark编程模型几大要素
不多说,直接上干货! Spark编程模型几大要素 Driver Program 输入-Transformation-Action 缓存共享变量转载于:https://www.cnblogs.com ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spa ...
Spark 内存模型
文章目录环境参数 Executor 内存划分堆内内存(On-Heap Memory) 堆外内存(Off-Heap Memory) 动态调节机制 Task 能申请到的内存新博客地址环境参数 sp ...
Spark编程模型（之莎士比亚文集词频统计实现）
Spark编程模型之莎士比亚文集词频统计前段时间因为学校的云计算比赛我无意间接触到了Spark云计算框架,从此对其一发不可收拾,无论从其执行效率还有他的其他方面的架构都感觉到无比强大,作为一个云计算 ...
Spark详解（三）：Spark编程模型（RDD概述）
1. RDD概述 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现.RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行 ...
Spark 编程模型(上)
Spark的编程模型核心概念(注意对比MR里的概念来学习) Spark Application的组成 Spark Application基本概念 Spark Application编程模型回顾sc ...
[Kafka与Spark集成系列三] Spark编程模型
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
第14课：Spark 分布式模型训练及调优（实战）
上节课已经为大家介绍了 Apache Spark 项目的基本情况,以及分布式深度神经网络的解决方案.这节课我们将给出一个 Deeplearning4j+Spark 的建模实例,包括从配置 Maven ...
《循序渐进学Spark 》Spark 编程模型
本节书摘来自华章出版社<循序渐进学Spark >一书中的第1章,第3节,作者小象学院杨磊,更多章节内容可以访问云栖社区"华章计算机"公众号查看. Spark机制原 ...

spark eventLoop模型

spark eventLoop模型相关推荐

最新文章

热门文章