分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。Spark UI可以查看取数据情况

下面是Spark webUI监控Stage的一个图:

  • PROCESS_LOCAL是指读取缓存在本地节点的数据
  • NODE_LOCAL是指读取本地节点硬盘数据
  • ANY是指读取非本地节点数据

通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY,尽量使数据以PROCESS_LOCAL或NODE_LOCAL方式读取。其中PROCESS_LOCAL还和cache有关。

Spark Locality Level相关推荐

  1. Spark(Locality)

    2019独角兽企业重金招聘Python工程师标准>>> Locality Level PROCESS_LOCAL: 数据和 task 在同一个executor jvm 中,最好的就是 ...

  2. Spark源码阅读02-Spark核心原理之调度算法

    Spark核心原理之调度算法 Spark核心原理之调度算法 应用程序之间 作业及调度阶段之间 1.创建调度池 2.调度池加入调度内容 3.提供已排序的任务集管理器 任务之间 1.数据本地性 2.延迟执 ...

  3. 通过案例对 spark streaming 透彻理解三板斧之一: spark streaming 另类实验

    本期内容 : spark streaming另类在线实验 瞬间理解spark streaming本质 一.  我们最开始将从Spark Streaming入手 为何从Spark Streaming切入 ...

  4. 深入理解Spark 2.1 Core (三):任务调度器的原理与源码分析

    提交Task 调用栈如下: TaskSchedulerImpl.submitTasks CoarseGrainedSchedulerBackend.reviveOffers CoarseGrained ...

  5. Spark性能相关参数配置详解

    随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化. 由于篇 ...

  6. Spark面对OOM问题的解决方法及优化总结 (转载)

    Spark面对OOM问题的解决方法及优化总结 (转载) 转载地址: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的 ...

  7. Spark源码分析 -- SchedulableBuilder

    SchedulableBuilder就是对Scheduleable tree的封装, 在Pool层面(中间节点), 完成对TaskSet的调度(FIFO, FAIR) 在TaskSetManager ...

  8. Spark 性能优化指南(官网文档)

    精选30+云产品,助力企业轻松上云!>>> 点击蓝色"大数据每日哔哔"关注我 加个"星标",第一时间获取大数据架构,实战经验 阅读本文大概需要 ...

  9. Spark面对OOM问题的解决方法及优化总结

    转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况 ma ...

  10. Spark数据本地性

    分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本.移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网 ...

最新文章

  1. 怎么把虚拟机清空内存_深入理解java虚拟机1——内存管理机制与回收机制
  2. SAP UI5 this.oModel.createBindingContext will trigger odata request
  3. Codeforces Round #722 (Div. 2)
  4. 先出报表还是先计提所得税_一道大综合题搞定“与子公司的内部交易合并报表抵销分录”的逻辑...
  5. php sub pos,PHP pos() 函数
  6. 记一次YY笔试中卡住得知识点
  7. 大二下学期学习进度(四)
  8. Python提取 Gprmax 3.0 的out文件数据
  9. [笔记]kubernetes 无法启动问题
  10. 485.最大连续1的个数
  11. spring aop和事务同时开启带来的一些问题
  12. java学生成绩管理系统不使用数据库_java学生成绩管理系统(不用数据库,用txt),写出来有报酬...
  13. 经典:5种常见的数据分析方法
  14. 计算机控制技术论文英语版,计算机控制技术外文论文
  15. scam计算机术语是什么意思,外贸术语dropshipping 是什么意思?如何操作?
  16. 从敏思博客的倒闭事件看历史重现...
  17. arc093F Dark Horse
  18. tcpdump 文件权限相关问题
  19. 电脑发送打印任务后打印机没有执行是怎么回事
  20. POJ 2385: Apple Catching

热门文章

  1. CorelDRAW 12快捷键
  2. English语法_人称代词 - It
  3. android调用Camera.open方法报错“Too many cameras already open”
  4. 超详细教程:YOLO_V3(yolov3)训练自己的数据
  5. 如何在mysql验证非负数_MySQL数据库- 要求非负数
  6. 家庭媒体中心解决方案(二、家用中高端路由器及NAS介绍)
  7. 中兴机顶盒刷机后服务器连接失败,(四川高安)中兴ba860av2.1t强刷安卓固件包解决刷机到7出错问题...
  8. Linux系统管理(一)基础管理
  9. The server encountered an internal error () that prevented it from fulfilling this request.
  10. hadoop完全分布式教程网页