王家林:Spark、Docker、Android技术中国区布道师。

联系邮箱18610086859@126.com

电话:18610086859

QQ:1740415547

微信号:18610086859

特别说明:

本课程在Spark企业级开发实战的基础之上做了两点增强:

Ø 课程全程有超过100个Spark大数据代码案例;

Ø 课程在第四天特别增加了Spark机器学习深入研究与实战专题,以满足企业级大数据机器学习的高级处理需求,机器学习部分的内容也特别适合于大数据Hadoop&Spark工程师的进阶学习;

课程介绍

如何把云计算大数据处理速度提高100倍以上?Spark给出了答案。

Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上,下图来自Spark的官方网站:

可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上!

Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持Interactive Query、流计算、图计算等。

Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制,确保系统的稳定运行,Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中,具有非常好的易用性。

目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年在社区和商业应用上会有爆发式的增长。

国内的淘宝、优酷土豆等已经使用Spark技术用于自己的商业生产系统中,国内外的应用开始越来越广泛,国外一些大型互联网公司已经部署了Spark。甚至连Yahoo是Hadoop的早期主要贡献者,现在也在多个项目中部署使用Spark,国内我们已经在运营商、电商等传统行业部署了Spark。

本课程是世界上第一Spark企业级最佳实践课程,课程包含:

Spark的架构设计;

Spark编程模型;

Spark内核框架源码剖析;

Spark的广播变量与累加器;

Shark的原理和使用;

Spark的机器学习;

Spark的图计算GraphX;

Spark SQL;

Spark实时流处理;

Spark程序的测试;

Spark的优化;

Spark on Yarn;

JobServer;

Spark机器学习深入研究与实战

培训对象

1, 云计算大数据从业者;

2, Hadoop使用者;

3,  系统架构师、系统分析师、高级程序员、资深开发人员;

4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

学员基础

了解面向对象编程;

了解Linux的基本使用;

王家林老师

Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术领域技术集大成者。

当今云计算领域最火爆的技术Docker源码级专家和Docker技术在中国的最早实践者之一。

Android架构师、高级工程师、咨询顾问、培训专家;

Spark、Docker、Android技术中国区布道师。

在Spark、Hadoop、Android、Docker等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到1.1.0共18个版本的Spark源码,Spark最佳畅销书《大数据spark企业级实战》作者;

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

多款浏览器定制者,中国大陆HTML5的技术引领者。

为超过50家公司提供了基于Linux和Android的软硬整合解决方案。

擅长构建系统和打造框架,特别精通于Java与C/C++混合的框架实现。

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

培训内容

第一天

第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

补充主题:快速掌握Scala

1 Scala变量声明、操作符、函数的使用实战

2 apply方法

3 Scal的控制结构和函数

4 Scala数组的操作、Map的操作

5 Scala中的类

6 Scala中对象的使用;

7 Scala中的继承

8 Scala中的特质

9 Scala中集合操作

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

第3堂课:深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

第4堂课:Spark的广播变量与累加器

4.1 广播变量的机制

4.2 广播变量使用最佳实践

4.3 累加器的机制

4.4 累加器使用的最佳实践

第5堂课:编写Spark程序

5.1 程序数据的来源:File、HDFS、HBase、S3等

5.2 IDE环境构建

5.3 Maven

5.4 sbt.

5.5 编写并部署Spark程序的实例

第6堂课:SparkContext解析和数据加载以及存储

6.1 源码剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加载数据成为RDD

6.5 把数据物化

时间

內  容

备注

第二天

第7堂课:深入实战RDD

7.1 DAG

7.2 深入实战各种Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的优化问题

第8堂课:Shark的原理和使用

8.1 Shark与Hive

8.2 安装和配置Shark

8.3 使用Shark处理数据

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架构

第9堂课:Spark的机器学习

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

第10堂课:Spark的图计算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

第11堂课:Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD

时间

內  容

备注

第三天

第12堂课:Spark实时流处理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能优化

第13堂课:Spark程序的测试

13.1 编写可测试的Spark程序

13.2 Spark测试框架解析

13.3 Spark测试代码实战

第14堂课:Spark的优化

14.1 Logs

14.2 并发

14.3 内存

14.4 垃圾回收

14.5 序列化

14.6 安全

第15堂课:Spark on Yarn

15.1 Spark on Yarn的架构原理

15.2 Spark on Yarn的最佳实践

第16堂课:JobServer

16.1 JobServer的架构设计

16.2 JobServer提供的接口

16.3 JobServer最佳实践

时间

內  容

备注

第四天

第17堂课:Generalized Linear Model

u Logistic regression

u Linear regression

u SVM

u LASSO

u Ridge regression

第18堂课:Recommendation

u Recommendation ALS

u Singular Value Decomposition

u The implementation in both MLlib and Mahout

u Applied demo of recommendation with PredictionIO.

第19堂课:Clustering

u k-means

u LDA

u Applied demo of geo-location clustering and topic modeling

第20堂课:Streaming-wised Machine Learning

u Lambda Architecture

u Parameter Server

u Several algorithms from Freeman labs

u Applied demo such as the zebrafish experiment

第21堂课:ML Pipeline

u Pipeline of Scikit-learn

u Pipeline of Spark (DataFrame, ML Pipeline, etc.)

u Applied demo (TBD)

第22堂课:Optimization in Parallel

u Commonly used optimization algorithms

u Sequential gene of optimization algorithms

u BSP model to BSP+ model to SSP

u Future ways?

决胜Spark大数据时代企业级最佳实践:Spark CoreSpark SQLGraphXMachine LearningBest Practice相关推荐

  1. 决胜HadoopSpark大数据时代:HadoopYarnSpark企业级最佳实践

    王家林:Spark.Docker.Android技术中国区布道师. 联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:186100868 ...

  2. grafana计算不同时间的差值_大数据时代!如何基于Spark Streaming构建实时计算平台...

    随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台 ...

  3. Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

    一.前言 随着IT技术的飞速发展,各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务.目前,医疗IT系统收集了大量极具价值的数据,但这些历史医疗数据并没有发挥出其应有的价值.为此,本文拟利用医 ...

  4. ClickHouse大数据领域企业级应用实践和探索总结

    ClickHouse简介 2020年下半年在OLAP领域有一匹黑马以席卷之势进入大数据开发者的领域,它就是ClickHouse.在2019年小编也曾介绍过ClickHouse,大家可以参考这里进行入门 ...

  5. 做银行家里的数据专家:ING探索大数据时代下的金融最佳实践

    大数据文摘出品 记者:高延 6月18-21日,O'Reilly AI Conference在北京召开.大会上,来自荷兰的金融公司ING的IT主管Bas Geerdink带来了<关于数字驱动企业& ...

  6. 大数据时代数据库-云HBase架构生态实践

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&a ...

  7. 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

    简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...

  8. 大数据时代的全能日志分析专家--Splunk安装与实践

    大数据时代的全能日志分析专家 --Splunk安装与实践 0.背  景 随着大家对网络安全意识的提高,企业网管理人员,必须对IT基础设置进行监控及安全事件的管理,管理数据的数量和种类非常巨大,那么就需 ...

  9. 王家林大咖新书预发布:清华大学出版社即将出版《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版 及《企业级AI技术内幕讲解》

    王家林大咖新书预发布:清华大学出版社即将出版<Spark大数据商业实战三部曲:内核解密|商业案例|性能调优>第二版,新书在第一版的基础上以Spark 2.4.3版本全面更新源码,并以Ten ...

最新文章

  1. RESTful API 最佳实践
  2. [Quick-x]制作新手引导高亮区域方法之二:裁剪模式
  3. 除了Tapd,还有哪些好用的项目管理工具,适用于100+人的大中型团队?
  4. 对于FAMNIST中的十种动物和水果进行识别测试
  5. linux 源码 调试,开发一个Linux调试器(六):源码级逐步执行
  6. C++Rabin Karp算法字符串快速查找(附完整源码)
  7. PAT_B_1058_Java(20分)
  8. 上河南星海科技_揭秘丨赣江新区网红打卡点,为你按下科技快进键!
  9. 爬虫学习之-Python list 和 str 互转
  10. Linux-1:安装忘记密码CRT连接centos 6.5
  11. 不用鼠标,程序员编程竟能如此高效?
  12. 数据库--MyBatis的(insert,update,delete)三种批量操作
  13. 陈桂林个人博客传送门
  14. Ubuntu18.04 安装运行windows程序(qq 微信 caj阅读器等)+解决wine中文乱码
  15. Qt 添加 QtNetwork 库文件(包括vs中和qt中)
  16. markdown 合并单元格、表格内换行
  17. 用谷歌浏览器检查功能实现精灵图
  18. windows系统电脑间互传文件
  19. 《WEB安全渗透测试》(23):记一次利用SSRF漏洞到提权
  20. 工单状态TECO/DLV

热门文章

  1. GetDlgItem function
  2. linux 匹配 中文开头,中文正则表达式匹配问题之正则表达式中文匹配使用方法,...
  3. Ionic实现微信、qq、微博分享
  4. MapperScan及其自动注入区别
  5. 电梯媒体卷起来,行业利润打下去
  6. svn服务器 无线访问权限,SVN 服务器端权限管理
  7. c++ 之 柔性数组
  8. linux 循环 变量,shell for循环 多个变量
  9. MFC实现父窗口不透明,子窗口半透明效果
  10. Vue指令v-once