Hadoop-Spark企业应用实战
课 程 大 纲
本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks HDP
本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案
第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合
1. 企业级集群部署、数据管理、任务调度、集群监控
2. Hadoop架构介绍、Spark / Shark介绍
3. Spark与Hadoop的关系
4. 现有Hadoop架构的种种问题和限制,HA
5. 企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H)
6. Hadoop世界中的DBA
7. 成本考量 —— 人?物?物是人非……
第二周:Hadoop Eco System 进阶应用基础知识
1. HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优
2. 玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口
3. Hive的Windowing and Analytics Functions
4. Hive 0.13的新功能
5. Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)
第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用
1. 企业级应用实例1:物流行业 — 订单跟踪
2. —〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD DATA
3. —〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例
4. 企业级应用实例2:广告行业 —基于用户行为分析的用户归类标签 (客户画像)
5. —〉 Hive复合数据类型array
6. —〉 array与collect_set、collect_list、array_contains、sort_array
7. —〉 impala的group_concat
8. —〉 array与lateral view、LATERAL VIEW OUTER
9. 企业级应用实例3:电商/零售行业 — 简单的推荐系统 Recommender System实现 (基于用户标签/客户画像)
10. —〉 Hive复合数据类型map、str_to_map、map_keys、map_values,map与lateral view
11. —〉通过Hive、Impala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data Masking)
12. —〉 HiveServer2 JDBC接口实例应用、中文支持Bug纠错
13. —〉Hive的窗口和分析函数入门(row_number、rank、dense_rank等)
14. 企业级应用实例4:互联网行业 —访问量业绩报表
15. —〉Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)
16. —〉 ROWS BETWEEN ... AND ...(CURRENT ROW,rows PRECEDING,rows FOLLOWING)
17. 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结
第四周:Hadoop & Spark / Shark进阶应用基础知识
1. HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark简介
2. HBase Shell与 HBase REST API 应用
3. HBase的Region进阶应用Compact、Split与Merge
4. HBase进阶脚本应用:jruby script
5. HBase与Hive的整合高级应用:binary(byte) value,lateral view explode
6. Hive 0.13:posexplode
7. Spark / Spark SQL / Shark架构介绍、Spark Scala / Python 开发介绍
第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架
1. Hadoop生态系统中为企业级开发提供的测试框架应用实例
2. Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark SQL + Parquet文件实现,Spark Scala Maven项目实例
3. HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用
4. 与Continuous Integration系统整合的可能
5. —— 软件/互联网行业Hadoop企业级开发框架
第六周:Hadoop & Spark / Shark企业级应用整合
1. HBase与Hive整合的大坑
2. HBase Python客户端 happybase 使用介绍、编程实例
3. HBase Coprocessor与HBase + Hive特征特点比较、分别适用的场景
4. 企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案
5. Hadoop与现有企业级BI平台的整合
6. Pentaho PDI / Kettle
7. Oracle or In-Memory Database
8. MicroStrategy / Tableau
第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合
1. 互联网行业时间序列(time series data)数据处理实例 ——整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治
2. 互联网行业时间序列(time series data)数据处理实例 ——整合 Spark 与 HBase
3. Spark访问 HBase 数据实例:通过 Spark对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray
4. 通过 Kettle / Spoon工具整合Hadoop与现有RDBMS的企业级BI解决方案
5. 其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的JDBC connector等)
6. —— 互联网行业Hadoop企业级大数据BI应用整合方案
下载地址:http://pan.baidu.com/s/1kTvB3Bh
Hadoop-Spark企业应用实战相关推荐
- 基于大数据技术之电视收视率企业项目实战(hadoop+Spark)
基于大数据技术之电视收视率企业项目实战(hadoop+Spark) 网盘地址:https://pan.baidu.com/s/1bEeSB1Y9nmjzctnbJMcBkg 密码:dohg 备用地址( ...
- 大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例
大数据技术之_19_Spark学习_07 第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 1.1.2 性能监控方式 1.1.3 调优要点 1.2 数据倾斜优化 1.2. ...
- Hadoop Spark太重,esProc SPL很轻
作者:石臻臻, CSDN博客之星Top5.Kafka Contributor .nacos Contributor.华为云 MVP ,腾讯云TVP, 滴滴Kafka技术专家 . LogiKM PMC( ...
- 《Spark大数据分析实战》——1.4节弹性分布式数据集
本节书摘来自华章社区<Spark大数据分析实战>一书中的第1章,第1.4节弹性分布式数据集,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区"华章社区"公众号查看 1. ...
- 美团点评 Hadoop/Spark 系统实践
系列文章 实时存储引擎和实时计算引擎 美团点评 Hadoop/Spark 系统实践 美团大数据查询技术 美团深度学习平台实践 美团广告系统实践 本文目录 系列文章 一.Hadoop/Spark 定位与 ...
- java项目-第96期基于ssm+hadoop+spark的电影推荐系统-大数据毕业设计
java项目-第96期基于ssm+hadoop+spark的电影推荐系统 [源码请到资源专栏下载] 1.项目简述 电影推荐系统,基于大数据分析的推荐系统,适合学习和企业应用. 首先电影推荐相对于其它推 ...
- 轻量级大数据计算引擎esProc SPL,Hadoop Spark太重
前言 背景:随着大数据时代的来临,数据量不断增长,传统小机上跑数据库的模式扩容困难且成本高昂,难以支撑业务发展. 应对之法:很多用户开始转向分布式计算路线,用多台廉价的PC服务器组成集群来完成大数据计 ...
- spark企业经典案例之手机app流量统计
spark企业经典案例之手机app流量统计,本课程是基于企业真实项目案例中的一个模块为背景讲解,此业务涉及spark统计,然后通过phpweb进行读取数据,最终通过手机端展示,根据公司案例抽取出来的模 ...
- spark 逻辑回归算法案例_黄美灵的Spark ML机器学习实战
原标题:黄美灵的Spark ML机器学习实战 本课程主要讲解基于Spark 2.x的ML,ML是相比MLlib更高级的机器学习库,相比MLlib更加高效.快捷:ML实现了常用的机器学习,如:聚类.分类 ...
- 手把手搭建企业IT实战环境第三季:快速搭建SCCM1902服务器
手把手搭建企业IT实战环境第三季:快速搭建SCCM1902服务器 ©Lander Zhang 专注外企按需IT基础架构运维服务,IT Helpdesk 实战培训践行者 博客:https://blog. ...
最新文章
- android应用的构成组件
- windows配置maven环境并换源
- 【论文解读】​YOLOX: Exceeding YOLO Series in 2021
- standford lessons
- python定时关机_python 实现定时关机(windows,python3)
- 查找最接近的元素(信息学奥赛一本通-T1240)
- 如何在Go中实现Elasticsearch
- 嵌入式Linux系统编程学习之三十三网络相关概念
- 【JVM】Java虚拟机
- RDS关系型数据库服务
- rxbus 源码_关于RxBus实现方式的思考
- 坐上支付宝微信支付巨头的刷脸顺风车
- 强制客户端更新Silverlight XAP文件方法汇总
- DeepMD安装及Unbuntu下Nvidia显卡升级(防跳坑)
- 汉语计算机语言,从计算机编程语言说汉语的比较优势
- Codeforces #229 D2C:Inna and Candy Boxes
- 【软考】--软考总结
- python 图片生成视频 moviepy_MoviePy
- 寻找Archie服务器中的文件,Archie是什么
- finereport 字符串拼接函数
热门文章
- PR1:初识PR界面
- html半圆形效果图,html5 canvas半圆形百分比进度条动画特效
- 深入windows的关机消息截获-从XP到Win7的变化
- java支付宝网页授权_轻松实现支付宝服务窗网页授权从配置到获取授权获取用户信息...
- php fpm 报错,php-fpm报错
- 使用adb工具向android设备上传/下载文件
- win7 下修改无限网卡Mac地址
- iexplore.exe命令行参数解释
- 教务系统漏洞再生南工大FaceMash
- 喜报!易基因“同源基因特异性甲基化时序数据分析方法”获专利授权