报错:

Lost executor 33 on xx.xx.xx.152: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.

原因:

由于spark某节点可用内存不足导致整个任务失败,在执行日志中找到可以上面的报错信息。

我这里应该是提交了多个任务后内存占用超过了spark可用内存,导致报错,有个任务提交占用45g内存,而spark配置的可申请内存是80G,所以导致了任务失败。

解决:

  1. 将spark-env.sh中的SPARK_WORKER_MEMORY参数调大一些,需要注意服务器内存,因为我这里可用内存还有156g,目前spark只用了80,所以直接调大了。
  2. 如果内存不足的话,就将提交任务时申请的内存executor-memory调小,保证内存够用。
spark-submit --master spark://xx.xx.xx.xx:7077 --class $main --deploy-mode client --driver-memory $driver_mem --executor-memory $exec_mem --executor-cores $exec_cores --total-executor-cores $total_core --conf spark.driver.maxResultSize=0 --conf spark.memory.fraction=0.7 --conf spark.memory.storageFraction=$storageFraction --conf spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=5g --conf spark.executor.memoryOverhead=5G --conf spark.speculation=true --conf spark.network.timeout=3000 --conf spark.executor.extraJavaOptions="-XX:+UseG1GC -XX:-TieredCompilation -XX:G1HeapRegionSize=16m -XX:InitiatingHeapOccupancyPercent=55 -XX:SoftRefLRUPolicyMSPerMB=0 -XX:-UseCompressedClassPointers -XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=256m -XX:ReservedCodeCacheSize=512m -XX:+UseCodeCacheFlushing -XX:ParallelGCThreads=20 -XX:ConcGCThreads=20 -Xms20g -XX:+PrintGCDetails -XX:+PrintGCTimeStamps" --conf spark.driver.extraJavaOptions="-XX:+UseG1GC" --jars $jars xxx-1.0.jar $date1 $max $date2  >> log/$log_file

Spark worker内存不足导致任务失败,报错Likely due to containers exceeding thresholds, or network issues相关推荐

  1. ubuntu18.04根目录已满造成开机失败报错Fail to start....

    ubuntu根目录已满造成开机失败报错Fail to start- 由于在安装ubuntu系统是手动分区,没有将/usr分区单独划分出来,造成/usr分区实际占用了根目录/.的空间,基本上通过命令安装 ...

  2. pod挂载nas启动失败报错:unable to mount volume xxxx Timeout waiting for mount paths to be created

    深夜你熟睡时,用户打来电话.大哥我在上线我的应用怎么突然起不来了.快帮我看看,再过一个小时店铺就开门了. 核实pod状态 打开电脑登入环境,使用kubectl get pod 查询到用户的pod处于创 ...

  3. SAP S4HANA 账户组的配置里'Int.Std.Grping'选项没勾选导致ABAP程序报错

    SAP S4HANA 账户组的配置里'Int.Std.Grping'选项没勾选导致ABAP程序报错 BP,试图创建一个新的vendor code, 角色是ZGM001, Grouping是G001, ...

  4. CentOS 7安装Development Tools 失败 报错 group tools does not exist. Maybe run: yum groups mark install

    重装centos,以及迁移时,碰见这个问题.如下图: CentOS 7安装Development Tools 失败 报错 group tools does not exist. Maybe run: ...

  5. python使用phantomJS循环for爬取多个页面时,解决内存持续变大而报错“ConnectionResetError: [WinError 10054]远程主机强迫关闭了一个现有的连接”的问题

    python使用phantomJS循环for爬取多个页面时,解决内存持续变大而报错"ConnectionResetError: [WinError 10054]远程主机强迫关闭了一个现有的连 ...

  6. 重写Readable接口read()方法 传入Scanner导致的BufferOverflowException报错

    在Main方法里产生随机单词, 导致异常BufferOverflowException , 首先思考的是每次调用read()方法应该会传入一个新的CharBuffer吧(实际并不是, 后面说) // ...

  7. 高德地图H5 定位失败报错 geolocation time out. Get ipLocation failed解决方案

    高德地图H5 定位失败报错 geolocation time out. Get ipLocation failed的解决方法. 前言:此坑踩得我挺难受的,搞了三天 需求:进入页面,获取用户具体经纬度并 ...

  8. win7 系统更新服务器失败怎么办,Windows7 Update更新失败报错80070002和80070003怎么办?...

    Windows Update更新失败怎么办?一位Win7用户在更新Windows Update时失败了,系统提示错误代码为"80070002"或"80070003&quo ...

  9. jupyter notebook导入numpy 失败 报错:Original error was: DLL load failed while importing _multiarray_umath:

    jupyter notebook导入numpy 失败 报错:Original error was: DLL load failed while importing _multiarray_umath: ...

  10. DataNode 启动失败报错 Incompatible clusterIDs

    文章目录 DataNode 启动失败报错 Incompatible clusterIDs 信息 报错摘要 问题描述 问题原因 分析步骤 解决办法 参考 DataNode 启动失败报错 Incompat ...

最新文章

  1. java jpcap 抓包并分析_java利用Jpcap实现抓包
  2. Java 读写文件大全
  3. html 页面中的 base href 和 target
  4. SqlServer 导出指定表数据 生成Insert脚本
  5. tf.Session().as_default的作用
  6. c语言是静态语言python语言是脚本语言对吗_初中生想学编程,请问先学C语言好还是先学Python?...
  7. 田志刚:企业知识管理的知识传播
  8. 给plt.axvline设置图例(label)
  9. AI助手智商测评Siri进步最大,无人驾驶打车服务已在美国试行
  10. Acoustic Echo Cancellation (AEC) 回音消除技术探索
  11. 年度总结 | 小小的年度大总结!太精辟!
  12. Go基础:数组、切片与指针
  13. OpenCV-图像处理(14、基本阈值操作)
  14. 596. 超过5名学生的课
  15. 拼多多sdk php,标签PHP拼多多SDK文章 - 零分博客 - 关注互联网且乱扯淡互联网的个人博客...
  16. linux编写自动运行一串命令的脚本
  17. asp.net914-自驾游网站的设计与实现
  18. Springboot配置多个数据源
  19. 如何把一张图片调整为另一张图片大小,不变形
  20. 箱线图(Boxplot)也称箱须图(Box-whisker Plot)

热门文章

  1. 春天里,程序猿宅男的“桃花”怎么开
  2. 《wireshark》怎么抓包
  3. 京东面试题咖啡杯问题(贪心算法、递归综合运用)
  4. winEdt下编辑报错:Something‘s wrong--perhaps a missing \item. \end{thebibliography}
  5. [codeforces 1293A] ConneR and the A.R.C. Markland-N
  6. windows10---Excel2016基本操作技巧
  7. 图解通信原理与案例分析-1:开篇-通信系统大全与快速概览
  8. 环境配置 python 3.6+Anaconda+cuda9.0+cudNN7.0+Tensorflow
  9. 浏览网站ssl证书错误该怎么办?
  10. 神棍节前夕,沃商店迎来1岁生日