2019独角兽企业重金招聘Python工程师标准>>>

Locality Level

PROCESS_LOCAL: 数据和 task 在同一个executor jvm 中,最好的就是这种 locality。
NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上;或在 HDFS 上,恰好有 block 在同一个节点上。速度比 PROCESS_LOCAL 稍慢,因为数据需要在不同进程之间传递或从文件中读取
NO_PREF: 数据从哪里访问都一样快,不需要位置优先
RACK_LOCAL: 数据在同一机架的不同节点上。需要通过网络传输数据及文件 IO,比 NODE_LOCAL 慢
ANY: 数据在非同一机架的网络上,速度最慢

优到差排: PROCESS_LOCAL > NODE_LOCAL > NO_PREF > RACK_LOCAL

Locality properties

spark.localExecution.enabled=false
spark.locality.wait=3000
spark.locality.wait.process=3000
spark.locality.wait.node=3000
spark.locality.wait.rack=3000

Locality config sample

val conf = new SparkConf()
.setAppName("ClusteringRunner")
//          .setMaster("local[*]")
.setMaster("yarn")
.set("deploy-mode", "client")
.set("hdp.version", "current")
.set("spark.default.parallelism", "200")
.set("spark.executor.instances", "5")
.set("spark.executor.cores", "20")
.set("spark.executor.memory", "5G")
.set("yarn.resourcemanager.hostname", "bigdataserver2")
//          .set("spark.locality.wait", "1ms")
.set("spark.locality.wait.rack", "500ms")
.set("spark.locality.wait.node", "50ms")
.set("spark.locality.wait.process", "5ms")
.set("spark.yarn.archive", "hdfs://192.168.11.73:8020/user/zhaomeng/standalone_spark_archive/spark_220_hadoop26.zip")val sc = new SparkContext(conf)

转载于:https://my.oschina.net/igooglezm/blog/1606825

Spark(Locality)相关推荐

  1. 一分钟了解spark的调优

    Tuning Spark 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 其他注意事项 并行度水平 减少任务的内存使用 广播大的变量 数据本地化 概 ...

  2. Spark配置属性整理(非常全面)

    Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本 ...

  3. spark如何防止内存溢出_spark开发十大原则

    前言 本文主要阐述的是在开发spark的时候遵循十大开发原则,这些原则都是我们的前辈辛辛苦苦的总结而来,但是也不是凭空创造的,是有依据可循的,就在官网上面,让我们来认识一下吧. 网址:http://s ...

  4. Spark配置参数详解

    Spark基本概念 Spark是一个用于集群计算的通用计算框架,数据科学应用和数据处理. Spark项目包含多个紧密集成的组建.Spark的核心是一个对由很多计算任务组成的.运行在多个工作机器或者是一 ...

  5. Spark性能相关参数配置详解

    随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化. 由于篇 ...

  6. Spark官方调优文档翻译(转载)

    Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU.网络带宽.或者内存等.最常见的情况是,数据能装进内存,而瓶颈是网络带宽:当 ...

  7. 如何查看spark消耗的内存_Spark优化(三)----数据本地化及内存调优

    1. 数据本地化的级别: 1.PROCESS_LOCAL 2.NODE_LOCAL 3.NO_PREF 4.RACK_LOCAL 5.ANY 1) PROCESS_LOCAL task要计算的数据在本 ...

  8. Spark面对OOM问题的解决方法及优化总结 (转载)

    Spark面对OOM问题的解决方法及优化总结 (转载) 转载地址: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的 ...

  9. Spark+Alluxio性能调优十大技巧

    戳蓝字"CSDN云计算"关注我们哦! 由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎.此外,越来越 ...

最新文章

  1. 配置用户通过Telnet登录设备的身份认证(AAA本地认证)
  2. mysql答题表设计_PHP+MYSQL问答系统中的提问和回答的表怎么设计
  3. Win 10 源码一览:0.5T 代码、400 万文件、50 万文件夹
  4. 最特殊的乡村医生,现在要去香港上市敲钟
  5. R语言学习笔记:向量
  6. 基于面板数据的熵值法
  7. mysql 序列_MySql中序列的应用和总结
  8. option标签selected=selected属性失效的问题
  9. 前端学习(1925)vue之电商管理系统电商系统之通过一层for循环渲染
  10. 一个利用sql 语句来实现分页的存储过程
  11. 这个 DNS 新漏洞可导致大规模的 DDoS 攻击活动
  12. 研发解决方案介绍#Tracing(鹰眼)
  13. UVA 12657 Boxes in a Line
  14. django–url
  15. POJ 1182 食物链(带权并查集)
  16. 记一次PLC和脉冲型伺服电机的接线方法_20210915
  17. dubbo源码解析-简单原理、与spring融合
  18. 某游戏浏览器Flash加速dll调用,打造我们自己的Flash加速器
  19. 「超级右键」Mac上最强的右键菜单工具,让你效率飞起!
  20. 【装机】关于WINRE/ESP/LRS_ESP/MSR/PBR这些分区

热门文章

  1. 小米第二款区块链产品WiFi链,跟网易星球很像!
  2. 网络通信篇上(udp实战开发)聊天器的开发两台电脑实现联通--socket模块的应用开发技术
  3. 天茹美妆祛斑怎么样?
  4. ID3 决策树的原理、构造及可视化(附完整源代码)
  5. 一幅本身为字节型的数字图像_遥感概论-中国大学mooc-题库零氪
  6. VScode下安装Live Server(自动刷新html页面)
  7. 强制换行Java_HTML连续英文字符串强制换行
  8. 蛋花花分析人工智能在医疗中有哪些应用
  9. 【MATLAB基础绘图第12棒】绘制饼状图
  10. CSS 垂直居中问题总结