故障描述

前段时间在测试Spark的RDD转换的lazy特性是发现了一个Spark内部对taskSet在executor的运行分配不均匀问题。先上两张图出现问题时间点的图,大家估计就明白怎么回事了:

再看看简单的测试代码:

import org.apache.spark._
import org.apache.spark.storage.StorageLevel/*** Created by zhaozhengzeng on 2015/1/5.*/import java.util.Random
import org.apache.hadoop.io.compress.CompressionCodec
import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext._object JoinTest {def main(args: Array[String]) {val sparkConf = new SparkConf().setAppName("Spark count test").set("spark.kryoserializer.buffer.max.mb", "128").set("spark.shuffle.manager", "sort")// set("spark.default.parallelism","1000")val sc = new SparkContext(sparkConf)//连接表1val textFile1 = sc.textFile("/user/hive/warehouse/test1.db/st_pc_lifecycle_list/dt=2014-07-01").map(p => {val line = p.split("\\|")(line(10), 1)}).reduceByKey((x, y) => x + y)//测试RDD的lozy特性val textFile3 = sc.textFile("/user/hive/warehouse/test1.db/st_pc_lifecycle_list/dt=2014-09-*").map(p => {val line = p.split("\\|")(line(11),"")})val textFile2 = sc.textFile("/user/hive/warehouse/test1.db/st_pc_lifecycle_list/*").mapPartitions({ it =>for {line <- it} yield (line.split("\\|")(10), "")})val count = textFile1.join(textFile2).count()println("join 之后的记录数据:" + count)//textFile1.saveAsTextFile("/user/hive/warehouse/test1.db/testRs/rs2")sc.stop()}
}

描述下,上面代码主要测试RDD的Join转换,以及测试textFile3的translation的lazy特性。在整个测试过程通过观察Spark UI看到上面这种TaskSet分布不均匀情况。第一个图中的Active Task为0的executor中在运行第一个stage的taskSet后,spark不会讲第二个stage的taskSet分配到这些executor中执行了。但是奇怪的是这种情况并不是经常会出现,我再接下来的N次重跑作业又不会出现这种情况,具体什么原因暂时无法找到,连重现的机会都没有,哈哈。这里先记录下吧,再观察...

Spark资源分配异常闪Bug相关推荐

  1. spark登陆后闪一下就不见了,问题解决了。

    这个问题困扰了我两天,卸载Dr.COM客户端(我们学校上网要装这个客户端登陆服务器,以后只能在网页里输入用户名和密码了),问题解决了.问题的现象:在实验室机台式机上安装openfire和spark之后 ...

  2. UITextView,UITextField 和UIAlertView 在ios8上 当pop时候出现闪bug

    http://www.aichengxu.com/view/54262 UITextView,UITextField 和UIAlertView 在ios8上 当pop时候出现闪bug /* 在iOS8 ...

  3. CAD异常闪退的原因

    2019独角兽企业重金招聘Python工程师标准>>> 无论你用的是哪款软件,都会遇到出现异常闪退的情况,在这种情况下,有的是前功尽弃,之前做的文件没了,白白浪费了时间,有的则是干着 ...

  4. 《Spark系列-SparkCore》IDEA运行Spark代码异常 -> Error:scalac: IO error while decoding \Demo2.scala with UTF-8

    IDEA运行Spark代码异常 -> Error:scalac: IO error while decoding \Demo2.scala with UTF-8 IDEA异常 Error:sca ...

  5. mysql进程异常_关于MySQL-Proxy子进程异常退出BUG修复

    关于 MySQL-Proxy 子进程异常退出的问题,我已经在之前的博文中提到过: 相关的错误信息如下图所示: 经查阅11号信号为SIGSEGV,表示进程执行了一个无效的内存引用或发生段错误,从而导致子 ...

  6. 将Windbg附加到软件进程上排查异常闪退的问题

    目录 1.问题背景 2.将Windbg附加到进程上,发现软件发生异常时中断在DebugBreak接口上

  7. 【UE4】界面打开关闭异常闪退

    第一次处理(未完全解决): 问题: 项目组上周测试的 IOS 包,打开关闭主要的角色界面,达到一定次数之后,必定闪退. 由于前不久在这个界面增加了场景的切换,以及一个镜面反射,首先认为应该是镜面反射导 ...

  8. 解决Eclipse安装Genymotion插件后抛异常的Bug

    报错信息: Output file: C:\Users\xvGe\.genymotion-eclipse.log Loading Genymotion library Genymotion direc ...

  9. [spark]spark资源分配

    一.常用方法 1.查看集群有多少资源 hadoop2:9870 2.查看每个节点的线程数和内存大小 1)查看单个节点的总线程数 2)查看每个节点的内存大小 应该是32G 3)查看队列的内存占比(常用的 ...

最新文章

  1. 分步学习Struts(三) 原理分析
  2. html 横屏内容显示不全_“屏”什么喜欢你,车载显示器有哪些新玩法...
  3. dask 使用_在Google Cloud上使用Dask进行可扩展的机器学习
  4. Linux内核 eBPF基础:ftrace基础-ftrace_init初始化
  5. mac bochs 调试linux,Mac OS X下编译安装带debugger的bochs
  6. php 超大整数计算,PHP int 超大溢出整数的 加减运算函数,如果有更好的方法欢迎探讨...
  7. 转:硬盘结构简介的好文(转)---MBR、分区表、CHS等概念
  8. IOS用正则验证手机号
  9. 删除安装的python
  10. 进程控制(PCB,进程ID,进程状态,fork函数,文件共享)
  11. 使用luac编译lua脚本文件[适用于Windows系统]
  12. 2021 年使用人数最多的5款主流前端框架点评
  13. python3中单引号,双引号,三个单引号 ,三个双引号的差别,以及反斜杠的用法
  14. photoshop CS5免费破解完整版下载,详细安装教程,无需注册【PS序列号】
  15. 域名 CN 被注册;上世纪最大的 BBS 论坛 | 历史上的今天
  16. redis中的increment()方法遇到的问题记录
  17. 程序员是吃青春饭的吗?
  18. strncmp函数用法是什么
  19. Autodesk 卸载工具
  20. 知乎|推荐10个大学生需要收藏的良心网站

热门文章

  1. mysql b tree图_MySQL索引--B-Tree(B+Tree)图文详解
  2. mysql分组后去重复数据_mysql去掉重复数据只保留一条,以及取分组后的一条数据...
  3. oracle强大的包,ORACLE 程序包
  4. 铁幕(Iron Curtain)
  5. 编程学习笔记(第一篇)面向对象技术高级课程:绪论-软件开发方法的演化与最新趋势(1)...
  6. 迅为I.MX6Q开发板配不同分辨率不同尺寸液晶屏幕
  7. MongoDB安装步骤
  8. 关于.net的.dll.refresh文件
  9. 【FFmpeg】FFmpeg常用基本命令(转载)
  10. 15个热门的编程趋势及15个逐步走向衰落的编程方向