Spark worker内存不足导致任务失败,报错Likely due to containers exceeding thresholds, or network issues
报错:
Lost executor 33 on xx.xx.xx.152: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
原因:
由于spark某节点可用内存不足导致整个任务失败,在执行日志中找到可以上面的报错信息。
我这里应该是提交了多个任务后内存占用超过了spark可用内存,导致报错,有个任务提交占用45g内存,而spark配置的可申请内存是80G,所以导致了任务失败。
解决:
- 将spark-env.sh中的
SPARK_WORKER_MEMORY
参数调大一些,需要注意服务器内存,因为我这里可用内存还有156g,目前spark只用了80,所以直接调大了。
- 如果内存不足的话,就将提交任务时申请的内存
executor-memory
调小,保证内存够用。
spark-submit --master spark://xx.xx.xx.xx:7077 --class $main --deploy-mode client --driver-memory $driver_mem --executor-memory $exec_mem --executor-cores $exec_cores --total-executor-cores $total_core --conf spark.driver.maxResultSize=0 --conf spark.memory.fraction=0.7 --conf spark.memory.storageFraction=$storageFraction --conf spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=5g --conf spark.executor.memoryOverhead=5G --conf spark.speculation=true --conf spark.network.timeout=3000 --conf spark.executor.extraJavaOptions="-XX:+UseG1GC -XX:-TieredCompilation -XX:G1HeapRegionSize=16m -XX:InitiatingHeapOccupancyPercent=55 -XX:SoftRefLRUPolicyMSPerMB=0 -XX:-UseCompressedClassPointers -XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=256m -XX:ReservedCodeCacheSize=512m -XX:+UseCodeCacheFlushing -XX:ParallelGCThreads=20 -XX:ConcGCThreads=20 -Xms20g -XX:+PrintGCDetails -XX:+PrintGCTimeStamps" --conf spark.driver.extraJavaOptions="-XX:+UseG1GC" --jars $jars xxx-1.0.jar $date1 $max $date2 >> log/$log_file
Spark worker内存不足导致任务失败,报错Likely due to containers exceeding thresholds, or network issues相关推荐
- ubuntu18.04根目录已满造成开机失败报错Fail to start....
ubuntu根目录已满造成开机失败报错Fail to start- 由于在安装ubuntu系统是手动分区,没有将/usr分区单独划分出来,造成/usr分区实际占用了根目录/.的空间,基本上通过命令安装 ...
- pod挂载nas启动失败报错:unable to mount volume xxxx Timeout waiting for mount paths to be created
深夜你熟睡时,用户打来电话.大哥我在上线我的应用怎么突然起不来了.快帮我看看,再过一个小时店铺就开门了. 核实pod状态 打开电脑登入环境,使用kubectl get pod 查询到用户的pod处于创 ...
- SAP S4HANA 账户组的配置里'Int.Std.Grping'选项没勾选导致ABAP程序报错
SAP S4HANA 账户组的配置里'Int.Std.Grping'选项没勾选导致ABAP程序报错 BP,试图创建一个新的vendor code, 角色是ZGM001, Grouping是G001, ...
- CentOS 7安装Development Tools 失败 报错 group tools does not exist. Maybe run: yum groups mark install
重装centos,以及迁移时,碰见这个问题.如下图: CentOS 7安装Development Tools 失败 报错 group tools does not exist. Maybe run: ...
- python使用phantomJS循环for爬取多个页面时,解决内存持续变大而报错“ConnectionResetError: [WinError 10054]远程主机强迫关闭了一个现有的连接”的问题
python使用phantomJS循环for爬取多个页面时,解决内存持续变大而报错"ConnectionResetError: [WinError 10054]远程主机强迫关闭了一个现有的连 ...
- 重写Readable接口read()方法 传入Scanner导致的BufferOverflowException报错
在Main方法里产生随机单词, 导致异常BufferOverflowException , 首先思考的是每次调用read()方法应该会传入一个新的CharBuffer吧(实际并不是, 后面说) // ...
- 高德地图H5 定位失败报错 geolocation time out. Get ipLocation failed解决方案
高德地图H5 定位失败报错 geolocation time out. Get ipLocation failed的解决方法. 前言:此坑踩得我挺难受的,搞了三天 需求:进入页面,获取用户具体经纬度并 ...
- win7 系统更新服务器失败怎么办,Windows7 Update更新失败报错80070002和80070003怎么办?...
Windows Update更新失败怎么办?一位Win7用户在更新Windows Update时失败了,系统提示错误代码为"80070002"或"80070003&quo ...
- jupyter notebook导入numpy 失败 报错:Original error was: DLL load failed while importing _multiarray_umath:
jupyter notebook导入numpy 失败 报错:Original error was: DLL load failed while importing _multiarray_umath: ...
- DataNode 启动失败报错 Incompatible clusterIDs
文章目录 DataNode 启动失败报错 Incompatible clusterIDs 信息 报错摘要 问题描述 问题原因 分析步骤 解决办法 参考 DataNode 启动失败报错 Incompat ...
最新文章
- java jpcap 抓包并分析_java利用Jpcap实现抓包
- Java 读写文件大全
- html 页面中的 base href 和 target
- SqlServer 导出指定表数据 生成Insert脚本
- tf.Session().as_default的作用
- c语言是静态语言python语言是脚本语言对吗_初中生想学编程,请问先学C语言好还是先学Python?...
- 田志刚:企业知识管理的知识传播
- 给plt.axvline设置图例(label)
- AI助手智商测评Siri进步最大,无人驾驶打车服务已在美国试行
- Acoustic Echo Cancellation (AEC) 回音消除技术探索
- 年度总结 | 小小的年度大总结!太精辟!
- Go基础:数组、切片与指针
- OpenCV-图像处理(14、基本阈值操作)
- 596. 超过5名学生的课
- 拼多多sdk php,标签PHP拼多多SDK文章 - 零分博客 - 关注互联网且乱扯淡互联网的个人博客...
- linux编写自动运行一串命令的脚本
- asp.net914-自驾游网站的设计与实现
- Springboot配置多个数据源
- 如何把一张图片调整为另一张图片大小,不变形
- 箱线图(Boxplot)也称箱须图(Box-whisker Plot)
热门文章
- 春天里,程序猿宅男的“桃花”怎么开
- 《wireshark》怎么抓包
- 京东面试题咖啡杯问题(贪心算法、递归综合运用)
- winEdt下编辑报错:Something‘s wrong--perhaps a missing \item. \end{thebibliography}
- [codeforces 1293A] ConneR and the A.R.C. Markland-N
- windows10---Excel2016基本操作技巧
- 图解通信原理与案例分析-1:开篇-通信系统大全与快速概览
- 环境配置 python 3.6+Anaconda+cuda9.0+cudNN7.0+Tensorflow
- 浏览网站ssl证书错误该怎么办?
- 神棍节前夕,沃商店迎来1岁生日