Spark(Locality)

2019独角兽企业重金招聘Python工程师标准>>>

Locality Level

PROCESS_LOCAL: 数据和 task 在同一个executor jvm 中，最好的就是这种 locality。
NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上；或在 HDFS 上，恰好有 block 在同一个节点上。速度比 PROCESS_LOCAL 稍慢，因为数据需要在不同进程之间传递或从文件中读取
NO_PREF: 数据从哪里访问都一样快，不需要位置优先
RACK_LOCAL: 数据在同一机架的不同节点上。需要通过网络传输数据及文件 IO，比 NODE_LOCAL 慢
ANY: 数据在非同一机架的网络上，速度最慢

优到差排: PROCESS_LOCAL > NODE_LOCAL > NO_PREF > RACK_LOCAL

Locality properties

spark.localExecution.enabled=false
spark.locality.wait=3000
spark.locality.wait.process=3000
spark.locality.wait.node=3000
spark.locality.wait.rack=3000

Locality config sample

val conf = new SparkConf()
.setAppName("ClusteringRunner")
//          .setMaster("local[*]")
.setMaster("yarn")
.set("deploy-mode", "client")
.set("hdp.version", "current")
.set("spark.default.parallelism", "200")
.set("spark.executor.instances", "5")
.set("spark.executor.cores", "20")
.set("spark.executor.memory", "5G")
.set("yarn.resourcemanager.hostname", "bigdataserver2")
//          .set("spark.locality.wait", "1ms")
.set("spark.locality.wait.rack", "500ms")
.set("spark.locality.wait.node", "50ms")
.set("spark.locality.wait.process", "5ms")
.set("spark.yarn.archive", "hdfs://192.168.11.73:8020/user/zhaomeng/standalone_spark_archive/spark_220_hadoop26.zip")val sc = new SparkContext(conf)

转载于:https://my.oschina.net/igooglezm/blog/1606825

Spark(Locality)相关推荐

一分钟了解spark的调优
Tuning Spark 数据序列化内存调优内存管理概述确定内存消耗调整数据结构序列化 RDD 存储垃圾收集调整其他注意事项并行度水平减少任务的内存使用广播大的变量数据本地化概 ...
Spark配置属性整理（非常全面）
Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本 ...
spark如何防止内存溢出_spark开发十大原则
前言本文主要阐述的是在开发spark的时候遵循十大开发原则,这些原则都是我们的前辈辛辛苦苦的总结而来,但是也不是凭空创造的,是有依据可循的,就在官网上面,让我们来认识一下吧. 网址:http://s ...
Spark配置参数详解
Spark基本概念 Spark是一个用于集群计算的通用计算框架,数据科学应用和数据处理. Spark项目包含多个紧密集成的组建.Spark的核心是一个对由很多计算任务组成的.运行在多个工作机器或者是一 ...
Spark性能相关参数配置详解
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化. 由于篇 ...
Spark官方调优文档翻译（转载）
Spark调优由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU.网络带宽.或者内存等.最常见的情况是,数据能装进内存,而瓶颈是网络带宽:当 ...
如何查看spark消耗的内存_Spark优化(三)----数据本地化及内存调优
1. 数据本地化的级别: 1.PROCESS_LOCAL 2.NODE_LOCAL 3.NO_PREF 4.RACK_LOCAL 5.ANY 1) PROCESS_LOCAL task要计算的数据在本 ...
Spark面对OOM问题的解决方法及优化总结 (转载)
Spark面对OOM问题的解决方法及优化总结 (转载) 转载地址: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的 ...
Spark+Alluxio性能调优十大技巧
戳蓝字"CSDN云计算"关注我们哦! 由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎.此外,越来越 ...

Spark(Locality)

Spark(Locality)相关推荐

最新文章

热门文章