1.我们要掌握Linux的安装及基本操作、Python安装及编程基础、java基础。

需要学习Linux的常用命令、基本网络配置、进程管理、shell语法;Python的常用语法,能够基于Python搭建一个常用的Server服务器和java的基础知识。

这时候只需要掌握基础即可,后边遇到问题再学习,这样才不会混乱,学的才扎实。

  1. 搭建Hadoop分布式环境

我们要做的是在自己的电脑上安装Linux,然后准备环境nat配置,搭建Hadoop集群先让Hadoop在自己的电脑上跑起来。使用VMware来搭建。

这时候我们会Host配置、IP配置、SSH免密登录等。

3.学习HDFS分布式文件系统

这一步要学习架构分析、容灾容错策略、local数据策略、数据块概念、机架感应,功能逻辑实现等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。

4.学习MapReduce计算框架

MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多,大家一定要有耐心,把MR的知识学牢固。

首先我们需要学习MR的基本原理、任务执行流程、Shuffle策略。自己动手写一个MR任务,来实现wordcount。然后要学习表单join、表单查询、数据清洗、全局排序、多目录输入输出、自定义partition分区,掌握二分法算法。

接下来学习自然语言处理方法(NLP),掌握如何提取关键词,TF-IDF算法。这里我们可以实践一下,统计文本中的词频。

学习中文分词,分词的质量直接影响数据挖掘的质量。

5.学习Strom流式计算

Storm是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。

这一步我们要知道Hadoop和Storm的区别,知道他们如何进行互补。了解Storm的体系架构、Zookeeper在架构中的作用和数据流处理的过程。弄懂Storm的工作原理和核心组件(Spout、Bolt)

6.学习Zookeeper分布式协作服务

这一步我们学会数据管理的树形结构,学会根据应用场景选择不同类型的节点、节点权限管理ACL和监控机制。学会Zookeeper开源自带Client工具的Shell使用,开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。

7.学习数据仓库工具Hive

这一步要了解Hive的体系架构和其与mysql的对比。要掌握Mysql的基本知识、系统搭建标准SQL语(增删查改)。

8.学习分布式存储系统Hbase

这一步要掌握Hbase的体系架构(HMaster、HRegionServer、HStore、HFile、HLog),物理存储、数据逻辑存储、核心功能模块。

细化一点要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出,与Hive结合使用,集群管理和性能调优。

9.学习Spark

这一步要掌握SPark的编程模型、运行框架、作业提交、缓存策略、RDD、MLLib。

10.学习Scala语言

这一步要掌握Scala的常用语法、函数、元组等操作,不熟Spark。

11.学习Spark开发技术

这一步要能够熟练使用MLLib,能够自己开发Scala的Spark任务,完成表格join、连接和文本串过滤等。

12.学习推荐系统

前面我们学了那么多,最终所学的技术要能落地,我学的是现在主流的推荐系统,现在各大公司都需要这方面的人才。

这一步我们可以找一些案例在学习,要掌握主流的推荐算法,Content Base、Collab Filter。

a.学习基于MR的协同过滤算法

b.学习Mahout,掌握Mahout的适用场景、环境搭建与部署。

学习基于Mahout的协同过滤算法,与MR进行效果对比。

C.学习基于Spark的协同过滤算法

到这里,按照上边的路线认真学习,肯定能学好hadoop开发,在学习的时候一定要亲自动手去敲,要去不断的尝试,把看到的知识尽快转化为自己的技能,这样才能高效率的学会hadoop,学任何一门技术都是一样,需要实际动手。

hadoop学习路线相关推荐

  1. hadoop 学习路线

    Posted: Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comments: 40 Comments Hadoop家族学习路线图 Hadoop家族系列文 ...

  2. hadoop学习路线2

    按照这个路线图来学习即可.     1.M. Tim Jones的三篇文章:     用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerwork ...

  3. hadoop学习路线路线

    按照这个路线图来学习即可.     1.M. Tim Jones的三篇文章:     用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerwork ...

  4. 第11期:Hadoop零基础学习路线

    大家好,我是你们的老朋友老王随聊,今天和大家讨论的话题--Hadoop零基础应该怎么学? 通过这段时间和群里同学们交流,发现很多大学生甚至职场小白对Hadoop学习路线不是很清晰,所以我花了一些时间给 ...

  5. 大数据学习路线copy自淘宝

    一.hadoop视频学习(入门到精通) 二.数据挖掘(入门到精通) 三.Hadoop学习路线 1.开发前期准备 首先,如果你没有Java和Linux基础,建议你先简单学一下这两门课程,此宝贝里面都为你 ...

  6. Hadoop生态系统学习路线

    主要介绍Hadoop家族产品,经常使用的项目包含Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa.新添加 ...

  7. hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结

    大数据学习路线分享hadoop的知识总结,Hadoop的背景:原生公司是apache, cdh的cloudar公司,hortworks公司提供hdp. 其中apache的发行版本大致有1.x ,2.x ...

  8. Hadoop学习系列之Hadoop、Spark学习路线(很值得推荐)

    Hadoop学习系列之Hadoop.Spark学习路线(很值得推荐) 文章出自:http://www.cnblogs.com/zlslch/p/5448857.html 1 Java基础: 视频方面: ...

  9. 【Hadoop】第一篇--Hadoop生态系统学习路线

    一.Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实 ...

  10. 零基础java培训如何规划学习路线

    学习java的同学越来越多,很多小伙伴都想知道零基础如何学习java?如何安排学习路线,零基础java培训如何规划学习路线?那么针对以上问题,今天小编特意分享这篇Java学习指南,希望对那些想学Jav ...

最新文章

  1. android 相机智能补光,美图秀秀智能补光功能应用详解
  2. shell脚本将本地docker镜像push到阿里云镜像仓库
  3. adb 测试工作中的总结
  4. 开源|如何开发一个高性能的redis cluster proxy?
  5. Web.Config介绍
  6. 投票选举c语言程序,C语言元旦礼物:经典入门问题分析——选举投票
  7. 文带你深入了解 Redis 内存模型
  8. mysql存储过程split_mysql存储过程实现split示例
  9. python字符串字面量有哪四种定义方式_python中字符串连接的四种方式
  10. Oracle 测试环境 数据库安装过程
  11. 按值设置选择选项“已选择”
  12. python threading thread_Python: 关于thread模块和threading模块的选择
  13. 制作温馨浪漫爱心表白动画特效HTML5+jQuery【附源码】
  14. 魅族手机开机出现Android,魅族开不了机怎么办?如何解决?
  15. MPS的DCDC国产代换件
  16. loadrunner icrosoft Visual c++2005 sp1运行时组件,就会提示命令行选项语法错误,键入“命令/?”
  17. helm charts 入门指南
  18. 综合应用_6多字符串-烟锁池塘柳
  19. matlab中switch函数的使用
  20. 线程池踩坑记 --load飙高的原因

热门文章

  1. Android CoordinatorLayout自定义Behavior实现依赖滚动布局
  2. 二极管(四):齐纳二极管
  3. 微软推出Azure Sphere漏洞奖励计划,最高奖金10万美元
  4. 做微商的朋友们都想知道代购怎么在闲鱼上引流?
  5. unity3D制作消消乐游戏/三消算法
  6. 关于苹果开发证书、发布证书、开发推送证书、发布推送证书的申请
  7. 如何显示隐藏文件和文件扩展名
  8. 【5】OpenCV2.4.9实现图像拼接与融合方法【SURF、SIFT、ORB、FAST、Harris角点 、stitch 】
  9. thinkphp开发码支付系统/三网免挂/微信金额免输入/源支付5.8/打造更专业的聚合免签支付系统带云端
  10. truncate 释放表空间