1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上;

2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个 Block 合并成一个 InputSplit(InputSplit不能跨越文件);

3,然后,会将这些 InputSplit 生成具体的 Task,一个 InputSplit 对应一个 Task;

4,然后这些 Task 会被分配到集群上的节点中每个 Executor 去执行;

注:

a,每个节点上会起一个或多个 Executor ;

b,每个 Executor 是由若干个 core 组成(这里的 core 是虚拟的 core,并不是指物理机器的 cpu 核,一般来说 spark 配置的 executor 核数不应该超过该节点的物理 cpu 核数),每个 core 一次只能执行一个 Task,其实这里的每个 Task 对应一个线程;

5,每个 Task 执行的结果就是生成了下一个 RDD 的一个 Partiotion;

具体可以看下图:

参考:www.zhihu.com/question/33…

Spark 中 File,Block,Split,Task,Partition,RDD概念的理解相关推荐

  1. 节点+Executor+Core+Task+Partition+RDD+job+DAG+stage+action算子之间的数量关系+两种并行度的区别

    图解 上面的Core与Task的默认对应关系是一对一,也可以通过.config("spark.task.cpus",1)修改. 这个参数的意思是:为每个任务分配的内核数量 上面图中 ...

  2. Spark中Task,Partition,RDD、节点数、Executor数、core数目(线程池)、mem数

    Spark中Task,Partition,RDD.节点数.Executor数.core数目的关系和Application,Driver,Job,Task,Stage理解 from:https://bl ...

  3. Spark中组件Mllib的学习16之分布式行矩阵的四种形式

    来源:http://blog.csdn.net/xubo245/article/details/51483995 更多代码请见:https://github.com/xubo245/SparkLear ...

  4. Spark中的键值对操作-scala

    1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,PairRD ...

  5. Spark精华问答 | 谈谈spark中的宽窄依赖

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark ...

  6. Spark中组件Mllib的学习19之分层抽样

    更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分层抽样的概念就不讲了,具体的操作: RDD有个操 ...

  7. Spark中组件Mllib的学习15之创建分布式矩阵

    更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 创建分布式矩阵 2.代码: /*** @autho ...

  8. spark中local模式与cluster模式使用场景_Spark 知识点 ( 架构 RDD Task )

    1. Spark介绍 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一 ...

  9. Spark中,RDD概述(五大属性,弹性介绍,5个特性)

    1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark 中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.在Spa ...

最新文章

  1. AndroidStudio报错:Could not download gradle.jar:No cacahed version available for offline mode
  2. win2003系统网络安装——基于linux+pxe+dhcp+tftp+samba+ris
  3. .ASP NET Core中缓存问题案例
  4. 关于腾讯云丢数据事件的一些看法
  5. java 僵尸进程_Linux 僵尸进程
  6. python爬取数据情感分析_爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析...
  7. MFC、OpenCV初探 —— PictureControl中图片的缩放
  8. db链接相关链接相关参数理解
  9. jupyter 设置主题Error:Could not find a version that satisfies the requirement jupyterthemes from version
  10. AndroidStudio配置一键360加固gradle脚本
  11. EZX交叉编译配置、MPKG程序制作教程
  12. 多媒体前端技术入门指南
  13. 线性回归相关系数c语言,线性回归方程和线性相关系数计算实例
  14. 换了3根高清线后,第四根mini dp转HDMI线终于可以显示4K了
  15. ssm毕设项目iGame游戏交易平台nzln3(java+VUE+Mybatis+Maven+Mysql+sprnig)
  16. 钉钉群机器人关键词自动回复_企业微信营销机器人怎么接入?
  17. greenplum安装方法详解
  18. 360网站卫士SQL注入绕过案例一个
  19. 今天学到一个新姿势(划掉)知识
  20. bzoj3054 Rainbow的信号(位运算+瞎搞)

热门文章

  1. 设计一个算法,删除一个单链表L中元素值最大的结点(假设最大值结点是唯一的)
  2. sop4封装尺寸图_「光电封装」 有源光器件的结构和封装
  3. mysql判断可用性,MySQL -- 主從復制的可靠性與可用性
  4. exif.js html图片旋转,解决图片显示 Exif.js更改图片的显示方向
  5. windows pip命令不见了_Python中Pygame以及pip的下载与安装
  6. python创建和控制的实体称为_Python eds包_程序模块 - PyPI - Python中文网
  7. docker rabbitmq_Docker部署RabbitMQ集群
  8. python哲学内容是_Python哲学(import this)
  9. python的os库_os库(python)—总结
  10. Vue学习笔记01:准备开发与调试环境