一、学习技能

1.1 必备技能(10项)

01. Java高级(虚拟机、并发)

02. Linux操作

03. Hadoop V2.0

(分布式存储系统HDFS【redundant reliable storage】+分布式计算框架MapReduce【data process】+资源管理系统Yarn【cluste resource management】)

(1)分布式存储系统HDFSHadoop Distributed File System

基本原理:将文件切分成等大的数据块,存储到多台机器上,将数据切分、容错、负载均衡等功能透明化,可将HDFS看成是一个容量巨大、具有高容错性的磁盘。

应用场景:海量数据的可靠性存储

HDFS优点:高容错性(数据自动保存多个副本,副本丢失后自动恢复);

适合批处理(移动计算而非数据、数据位置暴露给计算框架);

适合大数据处理(GB、TB、甚至PB级数据、百万规模以上的文件数量、10K+节点规模);

默认数据块大小为64MB,可配置,如果文件大小不到64MB,则单独存成一个block;

默认每个block有三个副本;

HDFS写流程如下——

HDFS读流程如下——

(2)资源管理系统YARNYet Another Resource Negotiator

   Hadoop2.0新增系统,负责集群的资源管理和调度,使得多种计算框架运行在一个集群中。

YARN基本架构如下——

YARN运行过程剖析如下——

(3)分布式计算框架MapReduce

具有良好的扩展性、高容错性,适合PB级以上海量数据的离线处理。

将计算过程分为两个阶段,Map和Reduce,Map阶段并行处理输入数据,Reduce阶段对Map结果进行汇总。运用Shuffle连接Map和Reduce两个阶段(Map Task将数据写到本地磁盘,Reduce Task从每个Map Task上读取一份数据)

MapReduce架构如下——

MapReduce运行流程如下——

(4)Hadoop2.0生态系统

 (5)Pig

构建在Hadoop上的数据仓库,定义一种数据流语言——Pig Latin,通常用于离线分析。

(6)Mahout(数据挖掘库)

基于Hadoop的机器学习和数据挖掘的分布式计算框架,实现了三大类算法:推荐、聚类、分类。

(7)Zookeeper(分布式协作服务)

解决分布式环境下数据管理问题——统一命名、状态同步、集群管理、配置同步

  (8)Sqoop(数据同步工具)

连接Hadoop与传统数据库之间的桥梁,支持多种数据库,包括MySQL、DB2等;

插拔式,用户可根据需要支持新的数据库;

本质上是一个MapReduce程序,充分利用MR分布式并行的特点与MR的容错性特点;

  (9)Flume(日志收集工具)

(10)Oozie(作业流调度系统)

04. HBase分布式数据库(JavaAPI操作+Phoenix)

  (1)HBase数据模型

Table:表——类似于传统数据库中的表

Column Family:列簇

Row Key:行键——Table的主键

Timestamp:时间戳——每行数据都对应一个时间戳

05. Hive(Hql基本操作与原理)

基于MR的数据仓库,最初用于解决海量结构化的日志数据统计问题,ETL工具;构建在Hadoop上的数据仓库;

Hive定义了一种类SQL查询语言——HQL

通常用于进行离线数据处理(采用MapReduce)

日志分析(统计网站一个时间段的pv、uv),大部分互联网公司使用Hive进行日志分析,包括百度、淘宝

多维度数据分析,

06. Kafka

07. Storm(实时计算框架)

流式计算,是指被处理的数据像流水一样不断地流入系统,而系统需针对每条数据进行实时处理和计算,并永不停止(直到用户显式杀死进程);

08. Scala需要

09. Python

10. Spark内存计算(Core+sparksql+Spark Streaming)

1.2 高级技能(6项)

1. 机器学习算法及mahout库加MLlib

2. R语言

3. Lambda架构

4. Kappa架构

5. Kylin

6. Aluxio

二、学习路径

2.1 第一阶段(Linux基础+Java高级)

1. Linux基础(鸟哥学Linux)

2. Java高级(《深入理解Java虚拟机》、《Java高并发实战》)

2.2 第二阶段

1. Hadoop(董西成书籍)

2. HBase(《HBase权威指南》)

3. Hive(《Hive编程指南》)

4. Scala(《快学Scala》)

5. Spark(《Spark快速大数据分析》)

6. Python(廖雪峰博客)

三、官网地址资源

1. Apache官网

2. Stack Overflow

3. Github

4. Cloudra官网

5. Databrick官网

6.CSDN

7. 51CTO

更多大数据相关技术,欢迎一起讨论~

————————一个唯美食与远方不可辜负的程序媛——————————————

大数据入门级学习路线相关推荐

  1. 大数据全方位学习路线

    大数据全方位学习路线 一.大数据处理流程 上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集.数据存储.数据处理.数据应用等主要环节.下面我们逐一对各个环节所需要的技术栈进行讲解: 1 ...

  2. 大数据人工智能学习路线(小白都可以看懂-从入门到精通)

    大数据&人工智能学习路线 先来看一个大数据网站所需用到的技术图 学习技术 Linux:大数据基础,hadoop.hive.hbase.spark等大数据软件的运行环境和网络环境配置,通常都是搭 ...

  3. java转大数据的学习路线

    不要错过文末彩蛋] 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学. 前言: 一.背景介绍 二.大数 ...

  4. 大数据工程师学习路线

    转载来源:https://blog.csdn.net/GitChat/article/details/78341484 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学 ...

  5. 2019年最炙手可热的大数据行业学习路线指导

    随着国家对大数据政策的倾向越来越多的人听说过这个名词,但对它都可能也是一知半解,今天小编精心为大家整理了大数据相关的所有知识,以及大数据学习的一些资料,希望对大家有所帮助. 什么是大数据 麦肯锡全球研 ...

  6. 大数据技术学习路线指南

    大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国,欧盟都已经将大数据研究和使用列入国家发展的战略,类似谷歌,微软,百度,亚马逊等巨型企业也同样把大数据技术视为生命线以及未来发 ...

  7. scala spark 数据对比_IT大牛耗时三个月总结出大数据领域学习路线,网友评论:炸锅了...

    大数据不是某个专业或一门编程语言,实际上它是一系列技术的组合运用. 有人通过下方的等式给出了大数据的定义. 大数据 = 编程技巧 + 数据结构和算法 + 分析能力 + 数据库技能 + 数学 + 机器学 ...

  8. 8年京东大数据架构师推荐的大数据开发学习路线

    一.我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 二.大数据工程师的技 ...

  9. 大数据云计算学习路线

    大数据.云计算系统顶级架构师课程学习路线图 大数据之Linux+大数据开发篇 Java Linux基础 Shell编程 Hadoop2.x HDFS YARN  MapReduce ETL数据清洗Hi ...

最新文章

  1. CentOS 服务器安全设置
  2. 面向过程与面向对象编程的区别和优缺点
  3. The python debugger调试(PDB)的简介
  4. 手机html检测蓝牙打印机,打印机手机确认.html
  5. 在地理文本处理技术上,高德有哪些技巧?
  6. excel乘法公式怎么输入_精选43个Excel表格的操作技巧| 推荐收藏
  7. Bootstrap validation
  8. 学习网络编程推荐安装的软件
  9. frida hook 出现 Process terminated
  10. 交换机vtp功能配置
  11. 在fpga中用Cordic算法来产生正弦函数
  12. ASP.NET Core WebApi构建API接口服务实战演练
  13. 图片怎么转换成PDF格式?这两种方法赶紧记下
  14. 微课登陆显示服务器繁忙,老师为什么教别人孩子容易,教自家孩子却这么难?| 公益微课...
  15. pstack 跟踪进程栈
  16. 芯片管脚工作在各个模式的特点和优缺点(持续更新)加上下拉电阻的作用
  17. 机器人能源处理专题-机器人电源管理系统
  18. VB控件实现IObjectSafety安全接口(zt)
  19. 2018有赞校招笔试题
  20. win10平板模式_Win10不支持miracast,你是不是就放弃了?

热门文章

  1. 皮一皮:别人家的老公...
  2. 你真会IDEA的调试功能吗?这4个技巧带你起飞!
  3. OpenAPI 规范 3.1.0 发布,赶紧来尝尝鲜!
  4. 如何利用 Arthas 热更新线上代码
  5. 自律到极致-人生才精致:第11期 - 领奖通知
  6. 零基础如何入门数据分析?
  7. 应用宝上架审核要求_【建议收藏】安卓应用商店上架经验,含流程,方法
  8. Python实现RGB和Lab颜色空间互转
  9. pynvml 多gpu不能显示
  10. pytorch view(): argument 'size' (position 1) must be tuple of ints, not Tensor