1、调节reduce端缓冲区大小避免OOM异常

  1.1 为什么要调节reduce端缓冲区大小

    对于map端不断产生的数据,reduce端会不断拉取一部分数据放入到缓冲区,进行聚合处理;

    当map端数据特别大时,reduce端的task拉取数据是可能全部的缓冲区都满了,此时进行reduce聚合处理时创建大量的对象,导致OOM异常;

  1.2 如何调节reduce端缓冲区大小

    当由于以上的原型导致OOM异常出现是,可以通过减小reduce端缓冲区大小来避免OOM异常的出现

    但是如果在内存充足的情况下,可以适当增大reduce端缓冲区大小,从而减少reduce端拉取数据的次数,提供性能。

//调节reduce端缓存的大小(默认48M)
conf.set("spark.reducer.maxSizeInFlight", "24");

2、解决JVM GC导致的shuffle文件拉取失败

  2.1 问题描述

    下一个stage的task去拉取上一个stage的task的输出文件时,如果正好上一个stage正处在full gc的情况下(所有线程后停止运行),它们之间是通过netty进行通信的,就会出现很长时间拉取不到数据,此时就会报shuffle file not found的错误;但是下一个stage又重新提交task就不会出现问题了。

  2.2 如何解决

    调节最大尝试拉取次数:spark.shuffle.io.maxRetries 默认为3次

    调节每次拉取最大的等待时长:spark.shuffle.io.retryWait 默认为5秒

//调节拉取文件的最大尝试次数(默认3次)
conf.set("spark.shuffle.io.maxRetries", "60");//调节每次拉取数据时最大等待时长(默认为5s)
conf.set("spark.shuffle.io.retryWait", "5s");

3、yarn队列资源不足导致application直接失败

  3.1 问题描述

    如果yarn上的spark作业已经消耗了一部分资源,如果现在再提交一个spark作业,可能会出现以下两个情况:第一、发现yarn资源不足,直接打印fail的log,直接就失败;第二、发现yarn资源不足,该作业就一直处于等待状态,等待分配资源执行。

  3.2 如何解决

    如果发生了上面的第一种问题,可以通过以下方式解决

    方法一:限制同一时间内只有一个spark作业提交到yarn上,确保spark作业的资源是充足的(调节同一时间内每个spark能充分使用yarn的最大资源)。

    方法二:将长时间的spark作业和短时间的spark作业分别提交到不同的队列里(通过线程池的方式实现)。

4、序列化导致的错误

  4.1 问题描述

    如果日志信息出现了Serializable、Serialize等错误信息

  4.2 如何解决

    4.2.1 如果算子函数中使用到外部的自定义的变量,自定义类型需要实行Serializable接口

    4.2.2 如果RDD中使用到自定义的数据类型,自定义类型需要实行Serializable接口

    4.2.3 以上两种情况的类型,不能使用第三方提供的没有实现Serializable接口的类型

5、算子函数返回NULL导致的错误

  5.1 问题描述

    有些算子函数需要有返回值,但是有些数据,就是不想返回任何数据,此时如果返回NULL,可能会导致错误。

  5.2 如何解决

    先返回一个固定的值,之后进行过滤掉指定的数据即可。

6、yarn-cluster模式的JVM内存溢出无法执行的问题

  5.1 问题描述

    有些spark作业,在yarn-client模式下是可以运行的,但在yarn-cluster模式下,会报出JVM的PermGen(永久代)的内存溢出,OOM.

    出现以上原因是:yarn-client模式下,driver运行在本地机器上,spark使用的JVM的PermGen的配置,是本地的默认配置128M;

          但在yarn-cluster模式下,driver运行在集群的某个节点上,spark使用的JVM的PermGen是没有经过默认配置的,默认是82M,故有时会出现PermGen Out of Memory error log.

  5.2 如何处理

    在spark-submit脚本中设置PermGen

    --conf spark.driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=256M"(最小128M,最大256M)

    如果使用spark sql,sql中使用大量的or语句,可能会报出jvm stack overflow,jvm栈内存溢出,此时可以把复杂的sql简化为多个简单的sql进行处理即可。

7、checkpoint的使用

  7.1 checkpoint的作用

    默认持久化的Rdd会保存到内存或磁盘中,下次使用该Rdd时直接冲缓存中获取,不需要重新计算;如果内存或者磁盘中文件丢失,再次使用该Rdd时需要重新进行。

    如果将持久化的Rdd进行checkpoint处理,会把内存写入到hdfs文件系统中,此时如果再次使用持久化的Rdd,但文件丢失后,会从hdfs中获取Rdd并重新进行缓存。

  7.2 如何使用

    首先设置checkpoint目录

//设置checkpoint目录
javaSparkContext.checkpointFile("hdfs://hadoop-senior.ibeifeng.com:8020/user/yanglin/spark/checkpoint/UserVisitSessionAnalyzeSpark");

    将缓存后的Rdd进行checkpoint处理

//将缓存后的Rdd进行checkpoint
sessionRowPairRdd.checkpoint();

    

转载于:https://www.cnblogs.com/lifeone/p/6473035.html

spark性能调优05-troubleshooting处理相关推荐

  1. Spark性能调优之资源分配

    **性能优化王道就是给更多资源!**机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的.基本上,在一定范围之内,增加资源与性能的提升,是成正比的:写完了一个复杂的spark作业之后 ...

  2. Spark性能调优-RDD算子调优篇

    Spark性能调优-RDD算子调优篇 RDD算子调优 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到 ...

  3. spark学习-Spark性能调优(1)

    本文要解决的问题: Spark在使用过程中不可避免的需要进行一系列的性能优化,本文就Spark性能调优的基础部分进行总结和归纳(开发调优和资源调优),参考了不少前辈的文章,在此非常感谢. 目的 在大数 ...

  4. 大数据培训:Spark性能调优与参数配置

    Spark性能调优-基础篇 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...

  5. Spark商业案例与性能调优实战100课》第20课:大数据性能调优的本质和Spark性能调优要点分析

    Spark商业案例与性能调优实战100课>第20课:大数据性能调优的本质和Spark性能调优要点分析 基于本元想办法,大智若愚,大巧若拙!深入彻底的学习spark技术内核!

  6. Spark性能调优 之 合理规划资源配置

    文章目录 1. 合理规划资源配置 1.1 简介 1.1.1 资源配置调优原理 1.2 资源配置说明 1.2.1 资源配置种类 1.2.2 资源配置方式 1.2.3 调优原则 2. 调节并行度 2.1 ...

  7. Spark性能调优总结

    文章授权自 : http://www.6aiq.com/article/1547041120082 使用正确的 transformations操作 虽然开发者达到某一目标,可以通过不同的transfo ...

  8. Sparkamp;Spark性能调优实战

    Spark特别适用于多次操作特定的数据,分mem-only和mem & disk.当中mem-only:效率高,但占用大量的内存,成本非常高;mem & disk:内存用完后,会自己主 ...

  9. 大数据培训:Spark 性能调优详解

    调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...

  10. Spark性能调优系列:Spark参数配置大全(官网资料)

    Spark参数配置大全 Spark提供了三个位置来配置系统 Spark属性控制大多数应用程序参数,可以使用SparkConf对象或Java系统属性来设置. 通过conf/spark-env.sh每个节 ...

最新文章

  1. 数据处理系列(四) 安装Elasticsearch用以存储和查询数据
  2. 剑指offer:二叉树的深度
  3. Strusts2 高危漏洞又来了,老项目自查起来!
  4. xss 跨站脚本漏洞 php,跨站脚本漏洞(XSS)基础讲解
  5. jsoup抓取网页报错UnsupportedMimeTypeException
  6. Codeforces Round #624 (Div. 3) D. Three Integers 数论
  7. HDOJ-1203 I NEED A OFFER!
  8. cp oracle,Oracle ASM使用asmcmd中的cp命令来执行远程复制
  9. Github Page搜索工具更新 - 收藏,手气不错
  10. 初级工程师该如何去学习,如何去研发开关电源?
  11. 介绍:一款Mathematica的替代开源软件Mathetics
  12. iPhone开发逻辑分辨率
  13. 如何在线制作二维码?学校通知二维码的3种制作方法
  14. 主力用计算机吸筹,主力底部吸筹 副图
  15. MSI(Message Signaled Interrupt)/MSI-X
  16. 仿 手机QQ 登录、注册、找回密码、好友列表、QQ状态等功能的实现
  17. pytorch实现风格迁移 style transfer
  18. springMVC Controller层接收 JSON参数遇到得问题
  19. 表情设计都有哪些技巧,分享做好表情设计的几个细节
  20. Native xdp hook 点

热门文章

  1. Python3 字符串操作
  2. 机器学习-关键词:正则化、过拟合、决策树
  3. html怎么设置自动音乐播放器,运用js教你轻松制作html音乐播放器
  4. java并发编程实战读书笔记4--生产者消费者模式和队列
  5. 缓冲区ByteBuffer简单说明
  6. python axis=1是行吗_Python:axis=0 axis=1的理解
  7. android自定义View之自定义可置顶ScrollView,View滑动原理简析
  8. zepto怎么设置宽高_【五个阿道夫】剧本杀测评 | 娱乐流量当道的时代 这个世界怎么了...
  9. ug区域轮廓铣没有重叠距离_UG编程轮廓铣的切削参数“清理几何体”,360°无死角扫除!...
  10. java实时解析mysql日志,利用maxwell 组件实时监听Mysql的Binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费...