浅谈Spark应用程序的性能调优 :http://geek.csdn.net/news/detail/51819

下面列出的这些API会导致Shuffle操作,是数据倾斜可能发生的关键点所在 
1. groupByKey 
2. reduceByKey 
3. aggregateByKey 
4. sortByKey 
5. join 
6. cogroup 
7. cartesian 
8. coalesce 
9. repartition 
10. repartitionAndSortWithinPartitions

要避免数据倾斜的出现,一种方法就是选择合适的key,或者是自己定义相关的partitioner。在Spark中Block使用了ByteBuffer来存储数据,而ByteBuffer能够存储的最大数据量不超过2GB。如果某一个key有大量的数据,那么在调用cache或persist函数时就会碰到spark-1476这个异常。

尽可能使用reduceByKey, aggregateByKey, foldByKey和combineByKey

转载于:https://www.cnblogs.com/zhangbojiangfeng/p/6089038.html

浅谈Spark应用程序的性能调优相关推荐

  1. 对 Web 应用程序进行性能调优

    这是一位IBM专家对 Web 应用程序进行性能调优 转载于:https://www.cnblogs.com/zwh-Seeking/articles/11059351.html

  2. Spark商业案例与性能调优实战100课》第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路

    Spark商业案例与性能调优实战100课>第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路 http://www.basketball-reference.com/leagues ...

  3. Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析

    Spark商业案例与性能调优实战100课>第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析 package com.dt.spark.coresimport org.apa ...

  4. 《Spark商业案例与性能调优实战100课》第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

    <<<Spark商业案例与性能调优实战100课>第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

  5. 《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

    <Spark商业案例与性能调优实战100课>第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

  6. 《Spark商业案例与性能调优实战100课》第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解

    <Spark商业案例与性能调优实战100课>第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解

  7. 《Spark商业案例与性能调优实战100课》第25课:Spark Hash Shuffle源码解读与剖析

    <Spark商业案例与性能调优实战100课>第25课:Spark Hash Shuffle源码解读与剖析

  8. 《Spark商业案例与性能调优实战100课》第9课:商业案例之通过Spark SQL 下两种不同方式实现口碑最佳和最热门电影比较

    <Spark商业案例与性能调优实战100课>第9课:商业案例之通过Spark SQL 下两种不同方式实现口碑最佳和最热门电影比较

  9. Spark商业案例与性能调优实战100课》第20课:大数据性能调优的本质和Spark性能调优要点分析

    Spark商业案例与性能调优实战100课>第20课:大数据性能调优的本质和Spark性能调优要点分析 基于本元想办法,大智若愚,大巧若拙!深入彻底的学习spark技术内核!

最新文章

  1. Swift 反射Mirror的使用
  2. python网课一般多少钱-Python培训网课一般学费多少?毕业生能承担吗?
  3. JS 设计模式 四(单例)
  4. 2022年全球及中国医用口服硫酸钡行业规模格局与市场需求展望报告
  5. Django Rest框架 APIView源码调用
  6. 智能一代云平台(三十八):单元测试推动开发,如何避免服务之间依赖拖了工期
  7. SELinux 案例 1
  8. Linux安装tomcat服务器
  9. java天猫精灵_教你玩转天猫精灵:把设备接入天猫精灵
  10. 软件工程个人项目— 数独
  11. linux设备模型五(device和device_driver)
  12. c语言md5函数 linux,【转】MD5校验C语言实现源代码
  13. LA 5713 秦始皇修路
  14. Python:打印九九乘法口诀表
  15. Python编程学习教程:用python给自己DIY一款小说阅读器
  16. 利用PhotoSwipe进行完成图片预览功能
  17. 重启tomcat报错 Tomcat7“At least one JAR was scanned for TLDs yet contained no TLDs”
  18. Android OpenGLES滤镜开发之大眼效果
  19. P3964 [TJOI2013]松鼠聚会【切比雪夫距离】
  20. C语言中 -> 是什么意思?

热门文章

  1. 史上最全站点降权原因解析
  2. Planetary Science and Life in the Universe
  3. python script 95% interval
  4. 什么是raid 容错式磁盘阵列?
  5. a high quality start up vc in uk
  6. C++二维数组名的再探索
  7. 阿里云服务器Svn-Server无法连接,阿里云服务器SVNServer配置
  8. MATLAB无穷大上的反常积分
  9. zabbix-server 的安装-centos7
  10. 洛谷P1388 算式