一:
Spark on YARN能让Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,并充分享受云梯YARN集群丰富的计算资源。
二:
基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager,
ResourceManager在某一 NodeManager汇报时把AppMaster分配给NodeManager,
NodeManager启动 SparkAppMaster,SparkAppMaster启动后初始化作业,
向ResourceManager申请资源,申请到相应资源后 SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor,
SparkExecutor向 SparkAppMaster汇报并完成相应的任务
SparkClient会通过AppMaster获取作业运行状态。
三:
driver 运行在集群中(cluster模式)
1、client 向 yarn 提交一个job
2、ResouceManager 为该job在某个 NodeManager 上分配一个 ApplicationMaster,NM启动AppMaster,Appmaster 启动 driver
3、ApplicationMaster 启动后完成初始化作业,driver 生成一系列task
4、AM 向 RM 申请资源,RM 返回 Executo r信息
5、AM 通过 rpc 启动相应的 sparkExecutor
6、Driver 向 Executor 分配 task
7、Executor 执行结果写入文件或返回 driver 端

四:
driver运行在client端
1、客户端启动后直接运行应用程序,直接启动 driver
2、driver 初始化并生成一系列 task
3、客户端将 job 发布到 yarn 上
4、RM 为该job 在某个 NM 分配一个 AM
5、AM 向 RM 申请资源,RM 返回Executor 信息
6、AM 通过 RPC 启动相应的 SparkExecutor
7、Driver 向 Executor 分配 task
8、Executor 执行task 并将结果写入第三方存储系统或者 Driver 端

五:对比总图

Spark面试:Spark on yarn 运行流程相关推荐

  1. Spark任务提交至YARN运行的3种方式与Mapreduce提交任务的几种形式

    一: Spark任务提交至YARN运行的3种方式 Spark作为新一代计算平台的闪亮明星,在我们的大数据平台中具有非常重要的作用,SQL查询.流计算和机器学习等场景都能见到它的身影,可以说平台应用的数 ...

  2. 2021年大数据Hadoop(二十七):YARN运行流程

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...

  3. 【spark】Spark环境搭建(运行模式)

    一.local本地模式 解压重命名 cd /export/servers tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz mv spark-2.2.0-bin-2.6. ...

  4. spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程

    最近总结了一些关于spark core的内容,今天先来和大家分享一下spark的运行模式. spark运行模式 (1)local:在本地eclipse.IDEA中写spark代码运行程序,一般用于测试 ...

  5. Spark应用运行流程

    相关基本术语 Application:应用,即用户需要完成的应用程序.一般来说,这部分代码需要用户根据自己的需求来完成.这部分代码主要包括两部分:Driver和Executor. Driver:顾名思 ...

  6. Spark On Yarn 运行项目

    在spark中,支持4中运行模式: Local:往往使用本地开发的时候使用. StandAlone:是spark自带的,如果一个集群是StandAlone模式的话,那么就需要在多台机器上同时部署Spa ...

  7. Spark SQL之queryExecution运行流程解析Logical Plan(三)

    1.整体运行流程 使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程 // sc is an existing SparkCont ...

  8. Spark On Yarn 运行模式(详细)

    Spark 在spark 中,支持4中运行模式: 1)Local:开发时使用 2)Standalone: 是spark 自带的,如果一个集群是standalong 的话,那么就需要在多台机器上同时部署 ...

  9. Spark SQL运行流程及性能优化:RBO和CBO

    1 Spark SQL运行流程 1.1 Spark SQL核心--Catalyst Spark SQL的核心是Catalyst查询编译器,它将用户程序中的SQL/Dataset/DataFrame经过 ...

最新文章

  1. Project interpreter not specified(eclipse+pydev) (转)
  2. eclipse让项目连接服务器失败,eclipse怎么链接服务器
  3. bzoj 1924: [Sdoi2010]所驼门王的宝藏
  4. Java经典面试题:一个线程两次调用start()方法会出现什么情况?
  5. 怎样设置左右两个区域_消防水炮设置区域高于22米效果怎样
  6. Tomcat 下构建 Web 应用时,常犯的一些通用错误
  7. 使用Drools跟踪输出
  8. 【渝粤题库】陕西师范大学200851 微机实用技术
  9. ubuntu/window安装dukto
  10. 机器学习系列(11)_决策树挖掘NBA冠军球队数据
  11. 邮箱发送html邮件,遇到的问题(如阿里邮箱如何发送html邮件、qq向阿里发送邮件样式丢失等)解决方法
  12. 学会jQuery 不用买书
  13. element ui响应式布局笔记,适配笔记
  14. webpack-theme-color-replacer动态修改Ant Design Vue主题色
  15. 免费网站搭建与phpstorm远程部署
  16. Ameya详解:村田的用于人机界面和生命体征检测的压电薄膜传感器
  17. 【Fastlio2 SLAM算法实现】
  18. python 创建目录时间_python实现根据当前时间创建目录并输出日志
  19. SpringBoot 优雅地对接口进行数据加解密
  20. pyautogui自动化控制鼠标和键盘操作

热门文章

  1. 接触网作业车司机许新峰的春运
  2. Tornado-Secure cookie and Session
  3. Struct嵌套使用
  4. 05-树9 Huffman Codes
  5. Unity中Web.Config文件的配置与调用
  6. 计算机休眠变关机,笔记本电脑一进入睡眠休眠就关机!重启后就显 – 手机爱问...
  7. SpringMVC源码解读 - HandlerMapping - SimpleUrlHandlerMapping初始化
  8. mysql linux通用版_Linux下安装通用版本的MySQL
  9. 开发提效小技巧分享(二)
  10. 基于php的织梦cms新闻发布,DedeCms