1.数据本地性级别划分

PROCESS_LOCAL：
要处理的数据在同一个本地进程，
即数据和Task在同一个Excutor JVM中。
这种情况是RDD的数据经过缓存，此时不需要网络传输，是最优locality。(但是数据要先缓存)。
NODE_LOCAL：
（1）数据和Task在同一节点上的不同executor中；
（2）数据HDFS和Task在同一个结点上，
此时需要进行进程间进行传输，速度比PROCESS_LOCAL略慢。
NO_PREF：
数据从哪访问都一样，相当于没有数据本地性，一般值从外部数据源读取数据。
RACK_LOCAL：
数据与Task在同机架的不同节点，此时需要通过网络传输，速度比NODE_LOCAL慢。
ANY：
数据和Task可能在集群的任何地方，性能最差，一般出现这种情况就该排查原因了

2.源码

package org.apache.spark.schedulerimport org.apache.spark.annotation.DeveloperApi@DeveloperApi
object TaskLocality extends Enumeration {// Process local is expected to be used ONLY within TaskSetManager for now.val PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY = Valuetype TaskLocality = Valuedef isAllowed(constraint: TaskLocality, condition: TaskLocality): Boolean = {condition <= constraint}
}

spark数据本地性级别划分相关推荐

Spark数据本地性
分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本.移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网 ...
Spark中的数据本地性
分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下. 概念: block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 ..也就是说单个文件大于 ...
一文搞清楚 Spark 数据本地化级别
Spark 数据本地化级别文章首发于:大数据进击之路 RDD 源码大家可以看到源码中的第五条注释说明,翻译过来的大概意思是提供一系列的最佳计算位置. 我之前一直不太清楚 spark 是如何内部实现 ...
R语言广义加性模型（GAMs：Generalized Additive Model）建模：数据加载、划分数据、并分别构建线性回归模型和广义线性加性模型GAMs、并比较线性模型和GAMs模型的性能
R语言广义加性模型(GAMs:Generalized Additive Model)建模:数据加载.划分数据.并分别构建线性回归模型和广义线性加性模型GAMs.并比较线性模型和GAMs模型的性能目录
Spark数据倾斜的完美解决
数据倾斜解决方案数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙. 性能调优中最有效最直接最简单的方式就是加资源加并行度,并注意RDD架构(复用同一个RDD,加上cache缓存).相对于前面 ...
解决Spark数据倾斜（Data Skew）的 N 种姿势与问题定位
Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自 ...
联邦学习中的数据异构性问题综述
摘要联邦学习中的数据异构性问题主要是由参与训练的各客户端的数据虽独立分布但不服从同一采样方法(Non-IID)所导致的,这一问题也导致模型精度的严重下降.如何缓解Non-IID带来的不利影响目前仍是 ...
spark+数据倾斜+解决方案
spark+数据倾斜+解决方案 1.如何判断数据切斜的发生源头? 根据stage划分原理和sparkUI 2.数据倾斜解决方案解决方案一:使用Hive ETL预处理数据
低成本运行 Spark 数据计算
作者 | 柳密阿里巴巴阿里云智导读:本节课主要介绍如何在 Serverless Kubernetes 集群中低成本运行 Spark 数据计算.首先简单介绍下阿里云 Serverless Kuber ...

spark数据本地性级别划分

1.数据本地性级别划分

2.源码

spark数据本地性级别划分相关推荐

最新文章

热门文章