问题:

用  spark-submit --master yarn --deploy-mode cluster --driver-memory 2G --num-executors 6 --executor-memory 2G ~~~

提交任务时,最后一个executor 执行时间 超过了 160s 导致 timeout而退出,造成任务重新执行造成用时过长。具体请看下面介绍:

17/01/13 09:13:08 WARN spark.HeartbeatReceiver: Removing executor 5 with no recent heartbeats: 161684 ms exceeds timeout 120000 ms
17/01/13 09:13:08 ERROR cluster.YarnClusterScheduler: Lost executor 5 on slave10: Executor heartbeat timed out after 161684 ms
17/01/13 09:13:08 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, slave10): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 161684 ms
17/01/13 09:13:08 INFO scheduler.DAGScheduler: Executor lost: 5 (epoch 0)
17/01/13 09:13:08 INFO cluster.YarnClusterSchedulerBackend: Requesting to kill executor(s) 5
17/01/13 09:13:08 INFO scheduler.TaskSetManager: Starting task 0.1 in stage 0.0 (TID 5, slave06, partition 0,RACK_LOCAL, 8029 bytes)
17/01/13 09:13:08 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 5 from BlockManagerMaster.
17/01/13 09:13:08 INFO storage.BlockManagerMasterEndpoint: Removing block manager BlockManagerId(5, slave10, 34439)
17/01/13 09:13:08 INFO storage.BlockManagerMaster: Removed 5 successfully in removeExecutor
17/01/13 09:13:08 INFO scheduler.DAGScheduler: Host added was in lost list earlier: slave10
17/01/13 09:13:08 INFO yarn.ApplicationMaster$AMEndpoint: Driver requested to kill executor(s) 5.
17/01/13 09:13:08 INFO scheduler.TaskSetManager: Finished task 0.1 in stage 0.0 (TID 5) in 367 ms on slave06 (5/5)
17/01/13 09:13:08 INFO scheduler.DAGScheduler: ResultStage 0 (saveAsNewAPIHadoopFile at DataFrameFunctions.scala:55) finished in 162.495 s

初步估计是  因为最后一步用到的计算多,但是 spark的堆外内存配置低 如下所示
spark.yarn.executor.memoryOverhead executorMemory * 0.10, with minimum of 384
故加大配置,如下:spark-submit --master yarn --deploy-mode cluster --driver-memory 2G --num-executors 6 --executor-memory 2G --conf spark.yarn.executor.memoryOverhead=512 --conf spark.yarn.driver.memoryOverhead=512

经测试上述问题不复存在! 

转载于:https://www.cnblogs.com/RichardYD/p/6281745.html

spark yarn任务的executor 无故 timeout之原因分析相关推荐

  1. spark DAGScheduler、TaskSchedule、Executor执行task源码分析

    摘要 spark的调度一直是我想搞清楚的东西,以及有向无环图的生成过程.task的调度.rdd的延迟执行是怎么发生的和如何完成的,还要就是RDD的compute都是在executor的哪个阶段调用和执 ...

  2. spark执行优化——依赖上传到HDFS二(-conf spark.yarn.dist.jars或者--jars 的使用)

    1.说明 之前整理过一篇类似文章,但是这个spark.yarn.jar配置的目录最好只是放spark jars目录下的jar包,如果放入其他的jar包,很大概率会有冲突,而且如果项目比较多,jar包引 ...

  3. CDH6.2配置spark.yarn.jars目录

    按照官网的文档采用以下操作即可: 进入CM界面 选择spark服务 配置 搜索spark-defaults.conf 添加spark.yarn.jars=hdfs://ns1/user/spark/j ...

  4. spark.yarn.archive spark.yarn.jars

    参考自:http://spark.apache.org/docs/latest/running-on-yarn.html#preparations 在spark on yarn模式下,/usr/loc ...

  5. 关于spark yarn模式下的常用属性

    前言 整理了spark官网提供的一些常用的spark属性. Spark属性 属性名 默认值 描述 spark.yarn.am.memory 512m 在Client模式下用于YARN Applicat ...

  6. 分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)

    分布式大数据处理系统概览(三)   本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院<大数据处理系统>,参考大夏学堂,下面主要整理HDFS/Ma ...

  7. spark任务优先级设置:spark.yarn.priority

    Spark对于Yarn priority的支持源码详解 Yarn的调度器 在Yarn中,提供了Capacity scheduler和Fair scheduler,它们都支持priority的.这里我们 ...

  8. spark.yarn.archive 的正确设置方法

    spark.yarn.archive 的设置方法有很多,下面三种 ①spark.yarn.jars hdfs://Desktop:9000/spark/jars/* ②spark.yarn.jars ...

  9. Neither spark.yarn.jars nor spark.yarn.archive is set

    完整报错如下: (Python3.6) appleyuchi@Desktop:target$ spark-submit --class WordCountLocal --master yarn --d ...

最新文章

  1. 计算机网络安全综述及防火墙浅析
  2. (软考信息安全工程师--中级)二、网络攻击原理与常用方法
  3. 计算机游戏测试软件,你的电脑能不能吃鸡,两款软件很简单就能测试出来
  4. C语言的程序是由什么组成
  5. 大数据发展趋势十个大方向
  6. 解决微博SDK接入全平台支持
  7. 数据中心管理常见错误,犯一个就是致命的
  8. 第三章 Elasticsearch Query DSL -- 查询
  9. 大学生计算机PHP实训报告,大学生计算机实训心得体会
  10. 【转】-ECshop数据库表结构
  11. 杰普实训日记 授课内容 第一天 讲师:李春雨
  12. Matlab 在线版 —— 科研人员的福音!无需下载安装,可计算可作图
  13. A Survey of Two Signature Aggregation Techniques学习笔记
  14. 当一个对象被当作参数传递到一个方法后,此方法可改变这个对象的属性,并可返回变化后的结果,那么这里到底是值传递还是引用传递
  15. javaweb简单版学生管理系统
  16. 高仿iReader书架效果
  17. 系统网络“人肉”监控
  18. 计算信号波形上升时间下降时间算法软件(Labview版)
  19. 让一部分人先学会【pcie信号完整性测试】
  20. 彻底搞懂Java注解Annotation(含注解的定义 原则 作用)

热门文章

  1. Oracle 11gR2 安装 example(范例数据库)
  2. python退出帮助系统help应该使用exit_Python终极教程(Windows)
  3. csv python 逐行读取_从 Excel 到 Python
  4. 云栖回顾|首届阿里云云原生生态合作伙伴大会:与伙伴能力融合,加速企业数字创新
  5. KubeCon 改为线上举办 | 云原生生态周报 Vol. 48
  6. Kubernetes 从懵圈到熟练:集群服务的三个要点和一种实现
  7. linux fish,LINUX命令fishshell-系统管理-比bash更好用的shell
  8. windows10 + Anaconda搭建tensorflow-gpu环境
  9. 计算机领域认知个人陈述,计算机专业个人陈述十九
  10. java分批查询oracle数据库_数据库的分批查询问题