Hadoop大数据零基础高端实战培训系列配文本挖掘项目
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》
课程讲师:迪伦
课程分类:大数据
适合人群:初级
课时数量:230课时
用到技术:部署Hadoop集群
涉及项目:京东商城、百度、阿里巴巴
咨询QQ:1609173918
下载地址:
链接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542
密码:8tkb
第一阶段:Hadoop基础篇(50课时) - 千里之行,始于足下(赠送课程)
课程一、基于Linux操作系统平台下的Java语言开发(20课时)
本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识。学习Linux操作系统下Java语言开发的好处 好处一:不再束缚在Windows操作系统下,开阔眼界。
好处二:熟练Linux操作系统的指令,走出“指指点点”的开发,成为真正的代码程序员。
好处三:增加自己的竞争实力,为自己应聘时加上浓浓的一笔。
第一讲 安装虚拟机以及Linux操作系统
第二讲 Linux桌面系统
第三讲 Linux文件和目录管理
第四讲 VIM的使用(上)
第五讲 VIM的使用(下)
第六讲 Linux终端常用命令
第七讲 Java开发环境的搭建
第八讲 Java语言基础(上)
第九讲 Java语言基础(下)
第十讲 Java中IO详解(上)
第十一讲 Java中IO详解(下)
第十二讲 Java中容器详解(上)
第十三讲 Java中容器详解(下)
第十四讲 Java中Swing详解(上)
第十五讲 Java中Swing详解(下)
第十六讲 JSP开发环境的搭建
第十七讲 JSP语法详解(上)
第十八讲 JSP语法详解(下)
第十九讲 开发用户登陆,用户注册系统
课程二、零基础实战Mysql数据库应用开发(30课时)
通过本课程的学习,用户可在最短的时间内掌握MySQL的安装配置与使用、MySQL DML特性的高级用法、MySQL常见内置函数的高级用法、MySQL中存储过程写法、视图、用户自定义函数、触发器等高级用法、MySQL中的事务功能。并了解图形化管理工具的使用、字符集及乱码处理、MySQL的数据备份与还原技术、MySQL的安全技术、MySQL的系统管理、MySQL集群的配置。
第一部分:安装配置MySQL数据库(1课时)
第二部分:图形化管理工具(2课时)
第三部分:存储引擎及数据库基本操作(2课时)
第四部分:字符集及乱码处理(2课时)
第五部分:MySQL DML特性的高级用法(5课时)
第六部分:MySQL内置函数(1课时)
第七部分: MySQL 中的存储过程、触发器高级应用(2课时)
第八部分:MySQL中视图与事务高级应用(3课时)
第九部分:MySQL中索引的使用(1课时)
第十部分:MySQL数据库的安全技术(1课时)
第十一部分:系统管理(1课时)
第十二部分:MySQL备份和还原操作(1课时)
第十三部分:性能优化(1课时)
第十四部分:集群的配置及应用(1课时)
第二阶段:Hadoop全面深入篇(96课时) - 十年寒窗苦,成名天下知
课程一、 Greenplum 分布式数据库开发入门到精通(41课时)
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。本课程全面深入地介绍了Greenplum数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同学全面彻底掌握这把大数据利剑。
一、 Greenplum架构
什么是Greenplum
Greenplum体系结构
Greenplum高可用性架构
二、安装Greenplum
配置环境
安装并初始化GPDB系统
启停数据库
配置GP系统
三、分布式数据库存储
数据是如何存储的
分布策略
四、 GBDB查询处理
查询命令的执行
SQL查询处理机制
并行查询计划
五、角色权限及客户端认证管理
客户端认证
管理用户和组
六、客户端接口和程序
pgAdmin III
PSQL
七、定义数据库对象
创建并管理数据库
创建并管理表空间
创建并管理模式
创建并管理表
分区表
数据分布与分区
压缩存储与行列存储
序列、索引与视图
八、管理数据
插入、更新、删除记录
事务管理
空间回收和统计
九、查询数据
定义查询
使用函数和运算符
查询分析
十、工作负载及资源管理
GP工作负载管理概述
配置工作负载管理
创建资源队列
分配资源队列
检查资源队列状态
十一、装载和卸载数据
GP装载命令概述
装载数据到GP
从GP卸载数据
格式化数据文件
十二、备份恢复
串行备份和恢复
并行恢复和恢复
十三、性能调优
如何进行调优
常见的性能问题
十四、GP系统配置参数
关于GP的Master参数与本地化参数
设置配置参数
配置参数种类
十五、开启高可用性
GP高可用概述
开启GP的Mirror
获知Segment何时失败
恢复失败的Segment
恢复失败的Master
十六、GP MapReduce
MapReduce基础
GP MapReduce编程
MapReduce作业执行和故障诊断
课程二、全面深入Greenplum Hadoop大数据分析平台(55课时)
大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。
采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。本课程深入阐述了Hadoop的架构原理,Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等实战运用。另外还介绍了云计算的基础知识和Hadoop在云计算领域的运用,以及剖析了Hadoop在各个互联网巨头商业环境的运用。
一、 Hadoop的起源和体系
Hadoop思想起源:Google
Hadoop子项目家族
Hadoop的架构
二、 Hadoop的安装与配置
准备和配置环境
三种运行模式
完全分布式模式安装
三、 HDFS-大数据存储
HDFS概念与体系结构
HDFS的可靠性
HDFS文件操作
HDFS API
四、 关于MapReduce
MapReduce编程模型
MapReduce的集群行为
MapReduce任务的优化
MapReduce工作机制
错误处理及作业调度机制
五、 MapReduce应用开发
Hadoop Eclipse插件开发
数据筛选程序开发
倒排索引程序开发
六、 Hadoop监控与管理
页面监控
hadoop备份
七、 HBase数据库
Hbase体系结构
HBase shell
HBase API应用实例
HBase场景应用
HBase模式设计
八、 Hive数据仓库
Hive组件与体系架构
Hive安装配置
Hive的服务接口
HiveQL常用操作
Hive的优化
Hive UDF编程
Hive综合实战
九、 Pig数据分析平台
Pig框架
Pig安装配置
Pig的使用
Pig的数据模型
常用Pig Latin操作
Pig UDF编程
Pig数据分析实战
十、ZooKeeper分布式服务框架
ZooKeeper工作原理
ooKeeper设计目标
ZooKeeper的数据结构和组成
ZooKeeper的安装配置
ZooKeeper命令行工具
ZooKeeper API
ZooKeeper实战:Hadoop任务调度
十一、 Chukwa集群监控系统
Chukwa的组成
Chukwa架构和设计
Chukwa安装与配置
常用Chukwa命令
实现自定义数据处理
十二、 Hadoop商业应用案例
云计算概念和特征
云计算服务模式和形态
Hadoop在云计算的运用
京东商城
百度
阿里巴巴
腾讯
十三、 Greenplum Hadoop集群
集成架构的特征
集成架构的优势
配置gphdfs协议使用环境
使用HDFS外部表
第三阶段:Hadoop高阶应用篇(81课时) - 会当临绝顶,一览众山小
课程一:Hadoop2.0/YARN深入浅出(21课时)
详细讲解了Hadoop 2.0架构、部署以及YARN,并讲解了运行在YARN上主要的计算框架,包括Spark、Storm和Tez
一、Hadoop 2.0(6课时)
Hadoop 2.0产生背景
Hadoop 2.0基本构成
二、HDFS 2.0
MapReduce 2.0
Hadoop 2.0安装配置
集群测试
三、YARN资源管理系统(4课时)
YARN产生背景
YARN基本设计思想
YARN基本架构
YARN工作流程
YARN通信协议
YARN容错
YARN资源调度机制
四、YARN支持的计算框架(Storm,Tez,Spark)(11课时)
以YARN为核心的生态系统
Storm基本概念
Storm流式计算框架
基于YARN的Storm架构
YARN-Storm部署
Storm On YARN服务
Apache Tez介绍
Tez特点
Tez数据处理引擎
DAGAppMaster实现
Tez优化机制
Tez应用场景
Tez部署
什么是Spark
Spark生态系统
Spark的核心--RDD和Lineage
RDD的存储、容错机制、内部设计及数据模型
Spark调度框架
Spark的分布式部署方式
基于Mesos的Spark模式
基于YARN的Spark模式
Spark的独立模式部署
Spark的YARN模式部署
课程二:MapReduce/Hbase进阶提升(29课时)
本部分内容主要针对MapReduce和HBase的高阶应用做深入的讲解和实战演练
一、MapReduce多语言编程(5课时)
MapReduce编程接口
Java编程接口实例解析
Hadoop Streaming实现方式
Hadoop Streaming编程实战(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的编程实例
Hadoop Pipes的原理剖析
二、MapReduce高阶实现(14课时)
复杂的MapReduce应用
K-means聚类、贝叶斯分类等
工作流编程实例及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工作流引擎
常用MapReduce优化技巧
配置多个reducer
设置Stream的处理格式
控制分片的大小
避免分片
输入格式:文本输入、多种类型输入
输出控制:多个输出、延迟输出
实战:数据分区 ?
MapReduce高级特性
计数器、内置计数器
实例:用户自定义计数器
MapReduce部分排序的实现
实例:MapReduce全排序
Terasort算法分析
实例:MapReduce实现二次排序
连接、Map端连接的实现
实例:Reduce端连接
连接类型、连接策略介绍
重分区连接框架的实现
复制连接框架的实现
实例:半连接
全局作业参数/数据文件传递
三、HBase编程实践及案例分析(10课时)
HBase基础精讲
HBase Java编程实例
HBase多语言编程
Thrift安装、服务配置
HBase C++编程实例
HBase Python编程实例
HBase MapReduce编程基础
实战:HBase MapReduce编程
Hbase案例:OpenTSDB的实现
基于HBase的爬虫调度库
基于HBase的爬虫索引库
银行人民币查询系统
课程三:Hadoop Sqoop/Flume/Avro实战(14课时)
Hadoop Sqoop、Flume、Avro重要子项目的技术实战
一、Sqoop(6课时)
Sqoop产生背景、基本
Sqoop1和Sqoop2架构及特点
Sqoop1安装配置(版本1.4.4)
Sqoop导入介绍
实战:从mysql导入数据到HDFS
实战:从mysql导入数据到Hive
Sqoop导出介绍
实战:将Hive数据导出到Mysql
Sqoop与Hbase结合
Sqoop作业操作
Sqoop作业安全配置
Sqoop2安装配置(版本1.99.3)
Sqoop2使用综合实战
二、Flume日志收集系统(7课时)
Flume概念和特点
Flume OG架构、组成、特点、容错机制设计
日志收集系统综合比较
Flume NG架构、核心概念
Flume OG的安装
Flume OG的配置(Web端、Flume shell)
Flume NG的安装配置、测试
Flume NG模块配置(Source、Channel、Sink)
三、Avro数据序列化系统(1课时)
Avro介绍
Avro特性、主要作用
RPC使用Avro
Avro与其他序列化系统的区别
课程四:深入浅出Hadoop Mahout数据挖掘实战(17课时)
1、Mahout数据挖掘工具
2、Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战
一、Mahout数据挖掘工具(10课时)
数据挖掘概念、系统组成
数据挖掘常用方法及算法(回归分析、分类、聚类等)
数据挖掘分析工具
Mahout支持的算法
Mahout起源和特点
Mahout安装、配置及测试
实战:Mahout K-means聚类分析
Mahout实现Canopy算法
Mahout实现分类算法
实战:Mahout逻辑回归分类预测
实战:Mahout朴素贝叶斯分类
推荐系统的概念及分类
协同过滤推荐算法概念、分类及应用
实战:实现基于Mahout的电影推荐系统
二、Hadoop综合实战-文本挖掘项目(7课时)
文本挖掘的概念及应用场景
项目背景
项目流程
中文分词技术
庖丁分词器的使用
MapReduce并行分词程序的设计与实现
Pig划分数据集
Mahout构建朴素贝叶斯文本分类器
模型应用-计算用户偏好类别
转载于:https://blog.51cto.com/8614861/1551504
Hadoop大数据零基础高端实战培训系列配文本挖掘项目相关推荐
- Hadoop大数据零基础高端实战培训
Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标) 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:330课时 用到技术:部署Hadoop集群 涉及项目:京东商城 ...
- Hadoop大数据零基础高端实战培训视频
<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量: 300课时 用到技术:部署Hado ...
- Hadoop大数据零基础高端实战培训系列课程分享
第一阶段:Hadoop基础篇(50课时) - 千里之行,始于足下(赠送课程) 课程一.基于Linux操作系统平台下的Java语言开发(20课时) 本套课程主要介绍了Linux系统下的Java环境 ...
- 最新hadoop大数据零基础入门高薪就业(目前最新)
有需要的朋友拿走吧 下载地址:百度网盘
- 大数据零基础如何入门教程
程序员必看大数据教程最全1024G学习资料免费赠送详解,大数据工作者可以施展拳脚的领域非常广泛,从国防部.互联网创业公司到金融机构,到处需要大数据项目来做创新驱动.数据分析或数据处理的岗位报酬也非常丰 ...
- Hadoop大数据开发基础项目化教程
项目一 大数据时代 大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...
- Hadoop大数据开发基础
项目一:大数据时代 大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...
- python大数据零基础_零基础学习大数据人工智能,学习路线篇!
大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后. Python:Python 的排名从去年开始就借助人工智能持续上升,现在它 ...
- hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop
点击蓝字关注我 1 什么是大数据 1.Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2.主要解决,海量数据的存储和海量数据的分析计算问题. 3.广义上来说,HADOOP通常是指一个 ...
最新文章
- Windows Server 2008 R2 配置笔记,密码设置为任意长度,远程桌面终端连接数的设置...
- eclipse 环境下 FreeMarker 编辑器插件
- python实习做什么工作-实习工作 - python挖掘 - 博客园
- 使用JMeter对异步HTTP / REST服务进行压力/负载测试
- 【BZOJ - 3224】普通平衡树(Splay模板题)
- HMC支持管理服务器数量及适合POWER6服务器的HMC型号
- ADO+MFC数据库编程常用语句
- CUX:固定资产台账报表源代码(信息较全)
- BZOJ 3162 独钓寒江雪
- android8临时root,Android8.0怎么root,刷supersu无穷重启
- Hadoop 3.x|第二天|配置完全分布式运行模式(重点)
- 利用python提取图像轮廓
- 折腾安装archlinx记录
- ubuntu 批量改名
- 恐鬼症服务器显示不出来怎么办,恐鬼症常见问题_恐鬼症bug问题_Phasmophobia出问题怎么办_游侠网...
- 全选与反选 (转)
- tf.compat.v1的含义
- python实现坐标点的系统转换
- Grid Garden
- 实时系统与非实时系统的区别
热门文章
- 不编程,拖拖鼠标图表自己动起来!来自图形学大牛陈宝权弟子,已获ACM CHI最佳论文荣誉提名...
- 包浆网图分分钟变高清,伪影去除、细节恢复更胜前辈AI,下载可玩|腾讯ARC实验室出品...
- 一觉醒来2T硬盘数据化为乌有,背后或是两名黑客在竞争式入侵
- 百万奖池,鹅厂offer,2020腾讯广告算法大赛等你来战!
- 已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能
- 北大AI公开课2019 | 微软亚洲研究院周明:NLP的进步将如何改变搜索体验?
- http协议基础(七)通用首部字段
- 关于React面试题汇总
- python练习---模拟sql
- 大数据如何在商业银行战略规划中发挥作用