spark executor

Executor是spark任务(task)的执行单元,运行在worker上,但是不等同于worker,实际上它是一组计算资源(cpu核心、memory)的集合。一个worker上的memory、cpu由多个executor共同分摊。

spark.executor.cores:顾名思义这个参数是用来指定executor的cpu内核个数,分配更多的内核意味着executor并发能力越强,能够同时执行更多的task

spark.cores.max :为一个application分配的最大cpu核心数,如果没有设置这个值默认为spark.deploy.defaultCores

spark.executor.memory:配置executor内存大小

笔者在使用过程中总结如下规律:

  • executor个数 = spark.max.cores / spark.executor.cores,集群的executor个数由spark.max.cores、spark.executor.cores共同决定,注意在standalone、mesos coarse-grained模式 下cores不要大于对应节点的内核数
  • 要保证每个worker上启动的executor均衡。如果不均衡的话会造成数据倾斜,拉慢任务的整体速 度。在运行过程中一个stask对应一个partition,配置不均衡,会导致每个节点处理的任务量不一样,因此会产生短板效应。
  • 如果运行过程中发现GC时间变红(管理界面可以看到),应该适当调大spark.executor.memory

本文转自:这里

10.spark executor相关推荐

  1. Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterva

    问题描述:提交spark-submit时,在ssh终端提交没有问题,但是在代码中ssh登陆后,再提交命令就出现以下问题了,开始怀疑是用户问题,但是如果是用户问题,那么我在ssh终端同一个用户执行又执行 ...

  2. Spark源码走读10——Spark On Yarn

    首先需要修改配置文件spark-env.sh.在这个文件中需要添加两个属性: Export HADOOP_HOME=/../hadoop.. ExportHADOOP_CONF_DIR=/../had ...

  3. Spark Executor内存管理

    我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色.为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Sp ...

  4. Spark 内存管理 spark.executor.memory /spark.memory.fraction/spark.memory.offHeap.size【堆外内存/内存管理】 钨丝计划

    spark1.6及之后: 堆内内存: spark.executor.memory 包含 spark.memory.fraction: spark.memory.fraction 包含 spark.me ...

  5. spark on k8s中指定spark.executor.instances为3,却没有启动executor的pod分析与解决

    1.问题描述 spark on k8s中指定spark.executor.instances为5,却没有启动executor的pod,其中jar包中的程序为读取mysql表的数据并且输出到mysql表 ...

  6. Spark Executor内幕

    Spark Executor工作原理 ExecutorBackend注册 Executor实例化 Executor具体是如何工作的? CoarseGrainedExecutorBackend,粗粒度的 ...

  7. Spark Executor解析

    目录 1.Spark Executor如何工作 2.Spark Executor工作源码 1.Spark Executor如何工作 当Driver发送过来Task的时候,其实是发送给CoarseGra ...

  8. spark shell 启动 出现org.apache.spark.SparkException: Found both spark.executor.extraClassPath and SPARK

    启动spark shell报错: Setting default log level to "WARN". To adjust logging level use sc.setLo ...

  9. Spark Executor heartbeat timed out

    Spark Executor heartbeat timed out after问题排查. 百度调整参数:如下图参数没有用. 解决办法: 代码排查问题 顺序调整,解决问题.

最新文章

  1. dstat用法;利用awk求dstat所有列每列的和;linux系统监控
  2. 视觉目标检测和识别之过去,现在及可能
  3. JavaScript的数据类型、null 和undefined、原始数据类型和引用数据类型等JavaScript基础知识总结
  4. SAP Spartacus Multi-Site Configuration
  5. 【Qt开发】QT对话框去掉帮助和关闭按钮 拦截QT关闭窗口的CloseEvent
  6. 好老婆的作息时间(做女人真悲哀 ……)
  7. python程序设计教程胡建华_Python程序设计教程
  8. “CEPH浅析”系列之一——前言
  9. ThinkPHP添加谷歌验证码验证
  10. vue:antV G2在vue中的使用(阿里图表,类似echarts)
  11. opencv 双目测距
  12. C++ DOM读写xml(msxml6)
  13. 记开发过的一款无线音箱解决方案
  14. 程序员如何提升英语水平
  15. 失眠 我们该怎么办?
  16. Kicad软件的基本使用
  17. 新款苹果手机_入手新款苹果手机半个月,他们这样评价新手机
  18. 07-白盒测试方法-逻辑覆盖法
  19. BT TWS方案开发感悟
  20. 方胜山《cisco网络故障处理手册》

热门文章

  1. canvas 的动画卡顿问题(运行一段时间卡顿)
  2. 借钱的境界:开价越低 借成的机会反而越小
  3. 复选框check的选中、不选中设置以及判断是否选中
  4. 高斯消元法(Gauss Elimination)
  5. 基于直流电机MATLABGUI设计
  6. 不可不学的摄影技巧.2——美姿
  7. java学习之简单零钱通
  8. 单片机中无符号和有符号变量使用
  9. 域计算机连接工作组打印机共享,工作组电脑访问域内共享打印机
  10. 湖北省2019年12月有计算机二级报名吗,2019上半年武汉市计算机二级考试报名时间|网上报名入口【12月19日8:00开通】...