• Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;
  • Driver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等;当Executor部分运行完毕后,Driver负责将SparkContext关闭。通常用SparkContext代表Drive;
  • Executor:Application运行在Worker 节点上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个Application都有各自独立的一批Executor。在Spark on Yarn模式下,其进程名称为CoarseGrainedExecutorBackend,类似于Hadoop MapReduce中的YarnChild。一个CoarseGrainedExecutorBackend进程有且仅有一个executor对象,它负责将Task包装成taskRunner,并从线程池中抽取出一个空闲线程运行Task。每个CoarseGrainedExecutorBackend能并行运行Task的数量就取决于分配给它的CPU的个数了;
  • Cluster Manager:指的是在集群上获取资源的外部服务,目前有:

    • Standalone:Spark原生的资源管理,由Master负责资源的分配;
    • Hadoop Yarn:由YARN中的ResourceManager负责资源的分配;
  • Worker:集群中任何可以运行Application代码的节点,类似于YARN中的NodeManager节点。在Standalone模式中指的就是通过Slave文件配置的Worker节点,在Spark on Yarn模式中指的就是NodeManager节点;
  • 作业(Job):包含多个Task组成的并行计算,往往由Spark Action催生,一个JOB包含多个RDD及作用于相应RDD上的各种Operation;
  • 阶段(Stage):每个Job会被拆分很多组Task,每组任务被称为Stage,也可称TaskSet,一个作业分为多个阶段,每一个stage的分割点是action。比如一个job是:(transformation1 -> transformation1 -> action1 -> transformation3 -> action2),这个job就会被分为两个stage,分割点是action1和action2。
  • 任务(Task): 被送到某个Executor上的工作任务;
  • partition: 理解spark中partition概念,需要和hdfs中的block做一下类比。hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,你的文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会有一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到、读取对应的内容。(p.s. 考虑到hdfs冗余设计,默认三份拷贝,实际上3*3=9个block的物理空间。)
    spark中的partition 是弹性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partition 组成的。partition 是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partition 大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的,这也是为什么叫“弹性分布式”数据集的原因之一。总结:block位于存储空间、partition 位于计算空间,block的大小是固定的、partition 大小是不固定的,block是有冗余的、不会轻易丢失,partition(RDD)没有冗余设计、丢失之后重新计算得到(这段文字来自知乎)

Spark组件和术语定义相关推荐

  1. ITU-T E.800 有关服务质量(QoS)的术语定义

    摘要 ITU-T E.800建议书为服务质量(QoS)的研究和管理提供了一套通用术语.本建议书列出的与QoS相关的技术和非技术术语旨在代表电信市场所有各方(即用户.服务提供商.制造商和监管机构)的利益 ...

  2. 023_html引用和术语定义标签

    1. <q>标签 1.1. <q>标签定义短的引用. 1.2. 浏览器通常会为<q>元素包围引号. 1.3. 例子 1.3.1. 代码 <!DOCTYPE H ...

  3. factorybean 代理类不能按照类型注入_Spring注解驱动开发之四——@Import快速导入组件、FactoryBean 定义工厂注册组件...

    本文包含以下内容: @Import快速导入组件 配合ImportSelector 导入组件 配合ImportBeanDefinitionRegistrar 导入组件 FactoryBean 定义工厂注 ...

  4. c语言中组件出现错误,错误消息:无法载入文件或组件 或其相依性的其中之一。 找到的组件资讯清单定义与组件参考不符。 (发生例外状况于 HRESULT: 0x80131040)...

    8种机械键盘轴体对比 本人程序员,要买一个写代码的键盘,请问红轴和茶轴怎么选? 摘要:错误消息:无法载入文件或组件 或其相依性的其中之一. 找到的组件资讯清单定义与组件参考不符. (发生例外状况于 H ...

  5. 华为云DAYU使用Spark组件开发的学习使用心得

    自己学习的心得,如有错误欢迎指正- 简单认识 首先华为DAYU平台中有两套Spark组件,一个是DLI Spark另一个是MRS Spark. DLI是数据湖探索服务,是完全兼容Apache Spar ...

  6. 安全合规/GDPR--16--GDPR条例中的术语定义

    <通用数据保护条例>中的术语定义: 数据主体:终端用户的数据(就是个人用户的数据) 控制者:个人用户数据的直接对接者.以我司为例,涂鸦智能APP是直接对接用户的,使用涂鸦智能的隐私政策,此 ...

  7. PMPBOK项目管理之术语定义

    RACI 矩阵 RACI Chart: 责任分配矩阵的一种常见类型,使用执行.负责.咨询和知情等词语来定义相关方在项目活动中的参与状态.R-执行人,A-责任人,C-顾问,I-知情人. SWOT 分析 ...

  8. Spark详解(四):Spark组件以及消息通信原理

    1. Spark核心基本概念 Application(应用程序):指用户编写的Spark应用程序,包含驱动程序(Driver)和分布在集群中多个节点之上的Executor代码,在执行过程中由一个或多个 ...

  9. vue 组件模板template定义时的注意事项

    在创建组件的时候,需要定义模板对象,注意 : template 的 value值: 1.通常是一个字符串,该字符串中如果存在多层div嵌套,肯定存在换行,此时不应该使用单引号,而应该使用 键盘上左上角 ...

最新文章

  1. 算法提高 学霸的迷宫
  2. Django框架环境搭建遇到的问题
  3. 通过OracleDataReader来读取BLOB类型的数据 (转载)
  4. NetSuite二次开发服务改变中小企业发展困境!
  5. matlab计算macd_[原创]基于MATLAB的一个简单的交易策略(基于MACD)的Matlab代码
  6. 模板能够让我们花更少的时间,得到更多的东西
  7. 计算机应用能力考试初级,河北省职称计算机应用能力考试初级
  8. conda查看已装包_conda一个包管理器
  9. dedecms 使用php语法,DedeCms(织梦)模版制作教程及标记语法详解
  10. 打包java项目_Java项目常见打包方式
  11. matlab连通区域质心标记,连通域的质心
  12. 基于OpenCv+Django的网络实时视频流传输(前后端分离)
  13. 从80年代初到2003年末中国出现的街头骗术
  14. 《道德经的人生智慧》读书笔记
  15. win10企业版无法访问共享文件夹
  16. 新动态视频壁纸微信小程序源码_支持多种分类短视频-也有静态壁纸
  17. 硬盘IDE、SATA、AHCI模式的区别
  18. Steam云状态无法同步怎么办?
  19. JAVA中关于日志的介绍
  20. 使用three.js/webgl开发智慧城市场景的一些总结

热门文章

  1. centos selinux mysql 5.6_centos 6.4下安装mysql 5.6.11
  2. linux优化网页加载过程,HTML页面加载和解析流程 介绍
  3. HTML5 的优点与缺点
  4. 如何用excle制作黑人拉馆_家居DIY带你学习如何用塑料勺制作壁挂!
  5. vbs 服务器获取输入信息,取得服务器上用户组列表脚本之VBS版
  6. Android SDK Tools Setup 提示 “ java se development kit not found”
  7. [日推荐]『保养汽车』爱车的专职管家
  8. Eclipse 安装热部署JRebel
  9. Magazine App Demo
  10. 整理的16个有用的jQuery Form(表单)验证教程