对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人惊诧。2009年,Spark诞生于伯克利大学AMPLab,于2010年正式开源,2013年成为了Apache基金项目,2014年成为Apache基金的较高级项目,整个过程不到五年时间。

2015年是Spark飞速发展的一年,Spark成为了现在大数据领域最火的开源软件,截止2015年,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。

学习它并掌握它,是大数据风口下IT人的必备技能。本课程全程将通过以下内容的实战演练,带你玩转Spark!

本课程将会结合精典案例讲解Spark Job的整个生命周期,以及如何划分Stage,如何生成逻辑执行计划和物理执行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle详细分析Spark Shuffle机制的原理与演进,同时结合Yarn分析Spark的内存模型以及如何进行相关调优,其中两节课主要介绍Spark Streaming使用方式,分析通用流式处理系统的关键问题以及Spark Streaming对相应问题的解决方案,如窗口,乱序,Checkpoint等,并分析Spark Streaming与Storm和Kafka Stream各自的优缺点和适用场景。

最后将结合源码分析Spark SQL的原理,以及实现SQL引擎的一般方法,介绍如何进行Spark SQL性能优化。并结合大量真实案例,分析如何解决数据倾斜问题从而提高应用性能。

课程大纲:

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习企鹅群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

第一课. Spark背景介绍与安装部署

1.1 Spark在大数据生态中的定位

1.2 Spark主要模块介绍

1.3 Spark部署模型介绍

1.4 Spark基于Ambari的安装

1.5 Spark Standalone下的HA

第二课. 基于Java的Spark编程入门

2.1 Spark应用中的术语介绍

2.2 交互式工具spark-shell

2.3 从Word Count看Spark编程

2.4 spark-submit的几种用法

第三课 Spark常用算子介绍

3.1 transform与action

3.2 广播变量与累加器

3.3 persist与checkpoint

3.4 数据本地性(Data locality)

第四课. 一个Spark应用的一生

4.1 Spark应用的Stage划分

4.2 窄依赖 vs. Shuffle依赖

4.3 Job逻辑执行计划

4.4 Job物理执行计划

第五课. Shuffle机制变迁

5.1 Hadoop Shuffle方案

5.2 Spark Hash Shuffle

5.3 Spark Sort Shuffle

5.4 Spark Tungsten Sort Shuffle

第六课. Spark SQL实战

6.1 Spark SQL前世今生

6.2 RDD vs. Dataframe vs. Dataset

6.3 使用外部数据源

6.4 连接metastore

6.5 自定义函数

6.6 spark-sql与Spark thrift server

第七课. Spark SQL原理

7.1 Spark SQL执行过程解析

7.2 Catalyst原理

7.3 SQL引擎原理

7.4 Spark SQL优化

第八课. 例讲数据倾斜解决方案

8.1 为何需要处理数据倾斜

8.2 调整并行度,分散同一Task的不同Key

8.3 自定义Partitioner,分散同一Task的不同Key

8.4 Map Join代替Reduce Join消除数据倾斜

8.5 为倾斜key增加随机前缀

8.6 大表增加随机前缀,小表扩容

第九课. Spark Streaming上

9.1 Spark Streaming示例

9.2 流式系统关键问题分析

9.3 Window操作

9.4 如何在流数据上做Join

9.5 Checkpoint机制

第十课. Spark Streaming下

10.1 如何处理数据乱序问题

10.2 Spark Streaming容错机制

10.3 Spark与Kafka实现Exactly once

10.4 Spark Streaming vs. Storm vs. Kafka Stream

10.5 Spark Streaming性能优化

10.6 Structured Streaming

第十一课. Spark MLlib

11.1 Pipeline

11.2 特征工程

11.3 模型选择

11.4 调优

第十二课. Spark优化

12.1 应用代码优化

12.2 Spark统一内存模型

12.3 基于YARN的参数优化

12.4 其它优化项

授课时间:

课程预计2017年10月26日开课,预计课程持续时间为14周

授课对象:

Java开发转大数据开发

具有一定Hadoop或其它分布式应用基础,转Spark开发

希望在Spark开发和原理上有所提升的大数据开发人员

课程环境:

Spark 2.1、Hadoop 2.7.3+

收获预期:

1. 掌握Spark核心原理,包括但不限于Spark Job的执行过程,Shuffle机制

2. 了解如何对Spark Job进行性能优化,包括但不限于参数调优,数据倾斜优化,应用代码调优

3. 掌握Spark Streaming的原理及使用方式,并掌握如何结合Spark Streaming和Kafka实现正好一次处理语义

4. 了解流式处理系统的常见问题和解决方案

Spark大数据平台应用实战相关推荐

  1. MAC系统中搭建Spark大数据平台(包括Scala)

    MAC系统中搭建Spark大数据平台(包括Scala) 总体介绍: 大家Spark大数据平台,包括三部分内容:JDK,Scala,Spark 这三者是依次依赖的关系,Spark依赖于Scala环境(S ...

  2. 在线教育大数据营销平台实战(一):大数据平台构建实战

    作者介绍 Tigerhu 在线教育公司大数据营销产品线负责人. 本人目前在一家在线教育公司担任大数据营销产品负责人,由于一些机缘巧合,我同时负责了数据产品线和营销CRM产品线,因此给了我更多的机会去思 ...

  3. 京东到家大数据平台演进实战

    达达-京东到家大数据平台是根据公司业务持续快速成长,而规划建设的一个可持续发展的平台.在建设过程中我们借鉴了很多公司实施大数据平台的经验,并因地制宜构建了我们自己的实施策略,确保在大方向上不会走偏,并 ...

  4. 大数据平台架构实战(一)hadoop搭建

    目标:美团的大数据平台架构实践 - 知乎 注:该图片来自上面链接 步骤 首先第一步就是HDFS的搭建,也就是hadoop的搭建,下面具体介绍一下步骤和问题. 参考文档:Apache Hadoop 2. ...

  5. hadoop与spark大数据平台培训推荐书目

    书单推荐 1.Hadoop技术内幕:深入解析YARN架构设计与实现原理 http://e.dangdang.com/products/1900396100.html 2.Hadoop权威指南:大数据的 ...

  6. 大数据平台架构实战(二)IntelliJ IDEA搭建hadoop

    IntelliJ IDEA 构建工程 工具类开发,随便找,IntelliJ IDEA搭建Hadoop开发环境(下)_Captain.Y.的博客-CSDN博客 生成jar包 由于我们的开发环境和hado ...

  7. Spark大数据分布式机器学习处理实战

    前言 Spark是一种大规模.快速计算的集群平台,本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处.有关框架介绍和环境配置可以参考以下内容: 大数据处理框架 ...

  8. 海航生态科技舆情大数据平台容器化改造

    本文转载自微信公众号Docker(账号:dockerone),作者为海航生态科技技术研究院大数据开发工程师高颜. 文章介绍了海航生态科技舆情大数据平台的容器化改造经验,包括初期技术架构.应用容器化.架 ...

  9. DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造

    本文讲的是DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造[编者的话]海航舆情监控系统能够为海航集团内部提供监控网络舆情信息,对负面信息.重大舆情及时预警,研判具体舆情或者某一舆 ...

最新文章

  1. 作业函数的定义与调用
  2. AppCompatActivity与toolbar的结合
  3. 2015第36周一高效程序员的45个习惯
  4. C++实现平衡二叉树
  5. Hibernate和MyBatis的缓存机制和比较
  6. Sigmoid 函数
  7. 银行家算法C++代码实现
  8. 信域安全云网产品架构
  9. Unicode中文和特殊字符的编码范围 及部分正则
  10. 2019年六月前端面试经验总结
  11. android项目小说阅读开发背景颜色,Android 小说阅读护眼模式
  12. java计算机毕业设计体育用品购物系统源程序+mysql+系统+lw文档+远程调试
  13. 一文速览全球央行数字货币最新进展
  14. linux驱动之字符设备
  15. ConcurrentHashMap1.7深度解析
  16. 3dmax面部表情绑定
  17. Android 蓝牙开发(八)hfp接听、挂断电话
  18. 教授专栏02 | 王一:观《科学革命的密码》有感
  19. 人工智能进入十年黄金窗口期
  20. Android studio离线安装genymotion及创建Android模拟器

热门文章

  1. 易语言取java路径模块,511遇见易语言API模块进程创建CreateProcess
  2. 喜报丨驭势科技荣获工信部人工智能产业创新揭榜优胜单位
  3. SecureCRT的安装和破解--亲试可用
  4. c# IE插件 Browser Helper Object (BHO)
  5. 自动刷新 html,JavaScript自动刷新页面的方法
  6. Idea 如何安装插件
  7. 用NXP官方开发工具S32调试kea128流程(用官方例程以及固件库)
  8. 辽宁移动计算机类校招工资,2020辽宁移动招聘考什么?好考吗?
  9. 工程监测多通道振弦模拟信号采集仪VTN的MODBUS 通讯协议
  10. WebSocket聊天室