Hadoop学习系列（一）

2024-05-16 16:14:35

文章目录

1、大数据
2、Hadoop是什么
3、Hadoop发展历史 ( Google是Hadoop的思想之源)
4、Hadoop的优势（4高）
5、Hadoop1.x和2.x的区别
6、HDFS架构概述
7、YARN架构概述
8、MapReduce架构概述
9、大数据技术生态体系

1、大数据

功能：

主要是解决海量数据的存储和海量数据的分析计算问题（TB、PB、EB）
特点：

大量，计算机硬盘的容量为TB级别，一些企业的数据量已经接近EB量级
高速，处理数据的效率就是企业的生命
多样，数据分为结构化数据和非结构化数据，结构化数据主要有以数据库和文本为主，非结构化数据主要包括网络日志、音频、视频、图片、地理位置信息等 4. 低价值密度，如何快速对有价值的数据“提纯”

大数据应用场景：

物流仓储零售旅游商品广告推荐保险金融房产

2、Hadoop是什么

（1）是由Apache基金会所开发的分布式系统基础架构
（2）主要解决海量数据的存储和海量数据的分析计算问题
（3） Hadoop生态圈

3、Hadoop发展历史 ( Google是Hadoop的思想之源)

（1）GFS–>HDFS (2) Map-Reduce–>MR (3) BigTable

4、Hadoop的优势（4高）

（1）高可靠性：Hadoop底层维护多个数据副本
（2）高扩展性：在集群间分配任务数据，可方便地扩展数以千计的节点
（3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理的速度
（4）高容错性：能够自动将失败的任务重新分配

5、Hadoop1.x和2.x的区别

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在Hadoop2.x时代，增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。

6、HDFS架构概述

（1）NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
（2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。
（3）Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

7、YARN架构概述

（1）Resource Manager
（2）NodManager
（3）ApplicationMAster
（4）Container

8、MapReduce架构概述

1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总

9、大数据技术生态体系

Hadoop学习系列（一）相关推荐

Hadoop学习系列之Hadoop、Spark学习路线（很值得推荐）
Hadoop学习系列之Hadoop.Spark学习路线(很值得推荐) 文章出自:http://www.cnblogs.com/zlslch/p/5448857.html 1 Java基础: 视频方面: ...
Hadoop学习系列之PageRank
昨晚上不想做其他的事,突然想起来好久都没更新博客了,shell也差不多学完了,只不过学习的时候都是只带着书出去了,改天总结总结.Hadoop么,黄宜华老师讲完了,自己也马马虎虎快学完了,也是没总结,那 ...
大数据Hadoop学习系列之Hadoop、Spark学习路线
1 Java基础: 视频方面:推荐毕老师<毕向东JAVA基础视频教程>. 学习hadoop不需要过度的深入,java学习到javase,在多线程和并行化多多理解实践即可. 书籍方面:推荐李 ...
Hadoop学习系列之Hadoop、Spark学习路线
1 Java基础: 视频方面:推荐毕老师<毕向东JAVA基础视频教程>. 学习hadoop不需要过度的深入,java学习到javase,在多线程和并行化多多理解实践即可. 书籍方面:推荐李 ...
Hadoop学习笔记系列文章导航
一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长 ...
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
大数据学习系列之八----- Hadoop.Spark.HBase.Hive搭建环境遇到的错误以及解决方法参考文章: (1)大数据学习系列之八----- Hadoop.Spark.HBase.Hiv ...
HIVE学习系列——windows Hadoop安装（上）
文章目录整体流程概览 jre环境 jre安装 jre环境变量配置 Hadoop安装与配置官网下载步骤清华镜像下载步骤 Hadooponwindows下载配置系统变量 hadoop初始文件配置 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
Hadoop学习笔记一简要介绍
Hadoop学习笔记一简要介绍这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
数据库MYSQL学习系列一
数据库MYSQL学习系列一一．MYSQL数据库基础 1.1-认识MYSQL 什么是数据库计算机处理和存储的一切信息都是数据计算机系统中一种用于存取数据的程序一种: 计算机系统中有很多种能够存取 ...

最新文章

热门文章