1.数据本地性级别划分

  • PROCESS_LOCAL:
    要处理的数据在同一个本地进程,
    即数据和Task在同一个Excutor JVM中。
    这种情况是RDD的数据经过缓存,此时不需要网络传输,是最优locality。(但是数据要先缓存)。

  • NODE_LOCAL:
    (1)数据和Task在同一节点上的不同executor中;
    (2)数据HDFS和Task在同一个结点上,
    此时需要进行进程间进行传输,速度比PROCESS_LOCAL略慢。

  • NO_PREF:
    数据从哪访问都一样,相当于没有数据本地性,一般值从外部数据源读取数据。

  • RACK_LOCAL:
    数据与Task在同机架的不同节点,此时需要通过网络传输,速度比NODE_LOCAL慢。

  • ANY:
    数据和Task可能在集群的任何地方,性能最差,一般出现这种情况就该排查原因了

2.源码

package org.apache.spark.schedulerimport org.apache.spark.annotation.DeveloperApi@DeveloperApi
object TaskLocality extends Enumeration {// Process local is expected to be used ONLY within TaskSetManager for now.val PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY = Valuetype TaskLocality = Valuedef isAllowed(constraint: TaskLocality, condition: TaskLocality): Boolean = {condition <= constraint}
}

spark数据本地性级别划分相关推荐

  1. Spark数据本地性

    分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本.移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网 ...

  2. Spark中的数据本地性

    分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下. 概念: block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 ..也就是说单个文件大于 ...

  3. 一文搞清楚 Spark 数据本地化级别

    Spark 数据本地化级别 文章首发于:大数据进击之路 RDD 源码 大家可以看到源码中的第五条注释说明,翻译过来的大概意思是提供一系列的最佳计算位置. 我之前一直不太清楚 spark 是如何内部实现 ...

  4. R语言广义加性模型(GAMs:Generalized Additive Model)建模:数据加载、划分数据、并分别构建线性回归模型和广义线性加性模型GAMs、并比较线性模型和GAMs模型的性能

    R语言广义加性模型(GAMs:Generalized Additive Model)建模:数据加载.划分数据.并分别构建线性回归模型和广义线性加性模型GAMs.并比较线性模型和GAMs模型的性能 目录

  5. Spark数据倾斜的完美解决

    数据倾斜解决方案 数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙. 性能调优中最有效最直接最简单的方式就是加资源加并行度,并注意RDD架构(复用同一个RDD,加上cache缓存).相对于前面 ...

  6. 解决Spark数据倾斜(Data Skew)的 N 种姿势 与 问题定位

    Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势 本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自 ...

  7. 联邦学习中的数据异构性问题综述

    摘要 联邦学习中的数据异构性问题主要是由参与训练的各客户端的数据虽独立分布但不服从同一采样方法(Non-IID)所导致的,这一问题也导致模型精度的严重下降.如何缓解Non-IID带来的不利影响目前仍是 ...

  8. spark+数据倾斜+解决方案

    spark+数据倾斜+解决方案 1.如何判断数据切斜的发生源头? 根据stage划分原理和sparkUI 2.数据倾斜解决方案 解决方案一:使用Hive ETL预处理数据

  9. 低成本运行 Spark 数据计算

    作者 | 柳密 阿里巴巴阿里云智 导读:本节课主要介绍如何在 Serverless Kubernetes 集群中低成本运行 Spark 数据计算.首先简单介绍下阿里云 Serverless Kuber ...

最新文章

  1. 怎样在bug管理上节省时间
  2. NOIP2008提高组(前三题) -SilverN
  3. LuaBridge 中C++类和继承示例
  4. SAP CRM Fiori My note应用 add to -append Frontend implementation
  5. IT与业务之间的鸿沟根源
  6. 音视频工程师(初步)(一)音视频的基本概念
  7. 基于Hadoop2.7.3集群数据仓库Hive1.2.2的部署及使用
  8. php留言簿,PHP 简易留言板
  9. java怎样读取数据库表中字段的数据类型?
  10. 一次 Java 内存泄漏排查过程,涨姿势
  11. “7天”连锁酒店郑南雁
  12. ansys2020视频教程
  13. 逻辑回归分类——信用卡诈骗检测!这才是干货!
  14. 【QT】linux下alsa库的移植和QT中音视频的处理笔记
  15. 3D漫游结合行业应用,实现企业营销价值
  16. 不知道怎么识别手写文字?快来看这些手写文字识别成文档软件
  17. 快速傅里叶变换及其实现
  18. 【控制理论】MPC(一)
  19. 【滤波器】基于高通+低通+带通+带阻FIR滤波器设计含Matlab源码
  20. 飞书中板栗看板适合做复杂任务管理吗

热门文章

  1. 【XSY1295】calc n个点n条边无向连通图计数 prufer序列
  2. Web端口复用正向后门研究实现与防御
  3. Python基础教程笔记——条件,循环和其他语句
  4. [HTTP] HTTP消息
  5. [Node.js] 模块化 -- fs文件读取模块
  6. HTML5概述、标签
  7. JavaScript 匿名函数与闭包
  8. javascript实现定时器四秒后跳转到秋秋淘衣坊首页(setInterval计时器)
  9. JavaScript学习笔记(二)--流程控制语句
  10. MSP430杂谈--IIC通信