一、集群安装监控和管理

模块一 EasyHadoop集群入门 
·Hadoop暴风应用案例 http://tech.watchstor.com/spec/salon/20120512/#585565-baidu-1-49444-69d7345a4fe33e9a9d9dabb775dd2d10
·EasyHadoop Manager安装及部署  
模块二 Hadoop集群管理
·Hadoop常见使用命令 
·Hadoop运维故障及解决 
·Hadoop使用工具 
·Hadoop其他应用案例 
    
 模块三 EasyHadoop集群配置:机架感知,开启压缩和任务均衡 
·Hadoop 集群安装和开启LZO压缩
·Hadoop 配置集群具备机架感知
·Hadoop 集群开启公平任务调度器
·Hadoop 集群开启能力任务调度器 
 模块四 Hadoop 集群维护与管理 
·查看集群状态
·HDFS数据管理
·Mapreduce 任务管理
·HDFS安全模式
·模拟集群Namenode,jobtrack失效
·添加删除节点
·数据平衡
·文件数据跨集群拷贝
·集群升级 
 模块五 Hadoop 集群规划和测试 
·集群规划(硬件,系统,网络)
·集群性能测试 
 模块六 Hadoop 集群监控和运维 
·使用Ganglia 监控Hadoop集群
·使用Cacti 监控操作系统 
 模块七 Hadoop HDFS高可用 
·Hadoop 元数据NFS备份方案
·Hadoop SecondaryNameNode备份方案 
·Hadoop CheckpointNode备份方案 
·Hadoop BackupNode备份方案 
·Hadoop Cloudera HA Namenode 方案

二、MapReduce编程基础

模块一 Hadoop MapReduce流程分析  
·Hadoop JobTracker 详解回顾
·Hadoop TaskTracker 详解回顾
·Hadoop 任务提交流程详解
模块二 使用 Hadoop MapReduce Streaming 编程  
·Hadoop Streaming 和 Java MapReduce Api 差异。
·学习使用 MapReduce 实现数据库功能,比如select group by join union all )
模块三 MapReduce分布式程序  
·MapReduce流程
·剖析一个MapReduce程序
·基本MapReduceAPI 概念
·驱动代码
·Mapper
·Reducer
·API 使用Eclipse进行快速开发
·上机实验
·新MapReduce API 
模块四 Hadoop 核心代码导读  
·Hadoop Mapper 类核心代码导读
·Hadoop Reducer 类核心代码导读
模块五 HDFS分布式文件系统编程   
·Hadoop HDFS 回顾
·Hadoop NameNode 回顾
·Hadoop DataNode 回顾
·hadoop I/O 操作
·使用Hadoop HDFS API对HDFS编程
模块六 Hadoop Mapreduce高级编程  
· ToolRunner介绍
·使用MRUnit进行测试
·利用Combiners来减少中间数据
·使用Configure和Close方法来进行Map/Reduce设置和关闭
·编写Partitioner来优化负载平衡
·上机实验
·直接访问Hadoop分布式文件系统(HDFS)
·使用分布式缓存(Distributed Cache)
·上机实验 
模块七 MapReduce的优化   
·map优化
·reduce优化
·小文件优化
模块八 MapReduce的任务调度   
·Queue调度的使用
·公平调度的使用
·能力调度的使用
模块九 MapReduce编程实战  
·Hadoop的join操作
·Hadoop的二次排序
·Hadoop的海量日志分析
模块十 flume+hadoop日志的收集实战  
·flume介绍
·flume核心组件讲解
·flume自带的组件分析
·flume二次开发实战

三、Hive、Pig、Mahout 数据挖掘

数据挖掘
模块一 EasyHive仓库集群  
·Hive的作用和原理说明
·Hadoop仓库和传统数据仓库的协作关系
·Hadoop/Hive仓库数据数据流
·Hive 部署和安装
·Hive Cli 的基本用法
·HQL基本语法 
 模块二 EasyHive仓库集群高级 
·使用JDBC 连接Hive进行查询和分析
·使用正则表达式加载数据
·HQL高级语法
·编写UDF函数 
 模块三 EasyHive仓库优化 
·使用Hive分区优化查询
·使用Lzo压缩优化数据存储容量
·HiveServer HA (使用haproxy提高HiveServer可用性)
·编写Hive自定义MapReduce脚本优化查询
·Hive数据倾斜和查询性能优化 
 模块四 EasyHive仓库外围系统 
·使用Sqoop进行数据分析
·使用oozie配置工作流
·phpHiveAdmin 安装和使用 
 Mahout数据挖掘
 模块一 推荐算法 
·推荐算法介绍
·item-base 算法mapreduce 实现 
 模块二 分类算法 
·基于MapReduce的文本分类算法 
 模块三 聚类算法 
·聚类算法原理介绍 
·使用MapReduce研发聚类算法 
 模块四 其他挖掘算法 
·关联规则算法和MapReduce实现 
·标签传播算法和MapReduce实现

四、HBase入门和高级 
模块一 HBase简介和架构(0.5h) 
HBase基本概念
HBase架构和核心模块介绍
HBase存储逻辑结构介绍 
模块二 HBase核心知识点(0.5h) 
基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance 
 模块三 HBase高级应用简单介绍(0.5h) 
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
过滤器:bloomfilter
版本:version 
 模块四 安装、部署、启动(2h) 
集群下安装部署HBase
启动HBase,启动顺序
测试启动多种方法 
 模块五 常用接口介绍、案例讲解(2.5h) 
native java接口
shell client
thrift接口
“用户搜索日志查询系统”案例讲解(包含2种接口实现、随机批量写入、查询用户搜索结果) 
五、Hadoop数据与集群安全 
 模块一 安全开放hadoop集群概述 小集群蜕变为开放平台要素 
 模块二 hadoop安全认证 kerberos认证协议分析、hadoop集成kerberos配置、kerberos管理与应用 
 模块三 hadoop权限控制 自定义权限模块、用户权限组划分、资源权限规划、队列池管理 
 模块四 hadoop灾备 数据迁移、通过案例描述灾难发生带来的损失、HA方案、次灾备方案 
 模块五 运营监控及报表 MapReduce自动化诊断、运营数据采集、运营报表分析、集群参数优化 
六、集群环境调优与Debug

Hadoop系统化学习提纲相关推荐

  1. ### 如何系统化学习OpenCV4

    如何系统化学习OpenCV4 OpenCV4.0发布以来,其依靠良好的接口代码.系统级别的优化.更加通用易学的函数调用,集成OpenVINO与tensorflow.caffe等模型加速推断.实现了从传 ...

  2. [转]Hadoop家族学习路线图

    Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...

  3. hadoop如何学习?

    随着计算机网络基础设施的完善,社交网络和电商的发展以及物连网的推进,产生了越来越多的大数据,使得人工智能最近几年也有了长足的发展,大数据的存储和处理也越来越重要,国家对此也比较重视,学习大数据和人工智 ...

  4. Hadoop YARN学习之Hadoop框架演进历史简述

    Hadoop YARN学习之Hadoop框架演进历史简述(1) 1. Hadoop在其发展的过程中经历了多个阶段: 阶段0:Ad Hoc集群时代 标志着Hadoop的起源,集群以Ad Hoc.单用户方 ...

  5. 大数据入门之Hadoop基础学习

    前言 目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解 基础概念 大数据的本质 一.数据的存储:分布式 ...

  6. Hadoop家族学习路线图--转载

    原文地址:http://blog.fens.me/hadoop-family-roadmap/ Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comment ...

  7. Hadoop家族学习路线图

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  8. Hadoop的学习前奏(二)——Hadoop集群的配置

    前言: Hadoop集群的配置即完全分布式Hadoop配置. 笔者的环境: Linux:  CentOS 6.6(Final) x64   JDK:    java version "1.7 ...

  9. Hadoop生态系统学习路线

    主要介绍Hadoop家族产品,经常使用的项目包含Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa.新添加 ...

最新文章

  1. MySQL的多版本并发控制(MVCC)
  2. java new的是构造函数_Java构造函数
  3. Android开发之WebView加载自定义scheme报错net::ERR_UNKNOWN_URL_SCHEME(附带源码标题下面可点击下载)
  4. mysql数据库的多实例_MySQL数据库多实例应用实战 - 橙子柠檬's Blog
  5. led拼接屏报价_液晶拼接屏与led显示屏的区别在哪?
  6. 《项目百态:软件项目管理面面观》三模式总结
  7. 【BUG解析】调用PagerAdapter.notifyDataSetChanged()不更新
  8. 使用PyCharm官方中文语言包汉化PyCharm
  9. SAP顾问英语自学的免费且有效的方法汇总!--一文搞定英语学习
  10. 管道无损检测python_初用python-docx
  11. 汇川PLC AM600、AC800系列Modbus TCP通讯案例(PLC和C++源码)
  12. 生成PDF文件的几种方法
  13. 资源(电影、英剧、美剧、日剧、动漫、纪录片)网站
  14. 在Win32API窗体下实现透明背景
  15. 怪诞行为学 读书笔记
  16. deep learning实践经验总结
  17. separator path php,php常量 DIRECTORY_SEPARATOR 和 PATH_SEPARATOR
  18. [轻笔记]Successor Features for Reinforcement learning
  19. 青龙面板-饿了么吃货豆
  20. Java 合并、拆分PPT幻灯片

热门文章

  1. marquee 循环空白解决方案完整代码+效果图
  2. 人工智能专业研究生或将迎来扩招,读还是不读?
  3. 2018山东教师职称计算机,2021山东教师招聘公告即将发布,关于教师的职称晋升,你了解多少?...
  4. 矩阵理论| 特殊矩阵:幂等矩阵、投影、正交投影
  5. C语言----保持城市天际线
  6. 聊聊项目测试时间不足怎么办
  7. android刷新媒体存粗,紫光展锐6款芯片适配安卓11 刷新展锐适配Android速度记录
  8. 2018.10.26 酷狗音乐校招前端一面经历(转)
  9. 《Unity着色器和屏幕特效开发秘笈》—— 1.1 引言
  10. TTP224/TTP224N 4 键触摸检测 IC