Hadoop基本原理之一：MapReduce

1、为什么需要Hadoop

目前，一块硬盘容量约为1TB，读取速度约为100M/S，因此完成一块硬盘的读取需时约2.5小时（写入时间更长）。若把数据放在同一硬盘上，且全部数据均需要同一个程序进行处理，此程序的处理时间将主要浪费在I/O时间上。

在过去几十年，硬盘的读取速度并未明显增长，而网络传输速度此飞速上升。

因此，若把数据分散到多个硬盘上进行存储（如分成100份存储在100个硬盘上），则读取数据所需时间大大减少，并将各节点处理好的结果通过网络进行传输。

但这将导致2个问题

（1）数据被分散到多个硬盘中，某个盘发生故障导致部分数据出错的可能性大大增加，因此需要对数据进行复制备份======>> HDFS!!

（2）数据分散在多个盘，一般会在本地进行初步处理，，如何将处理结果进行合并============>>MapReduce!!!

2、基本节点

在Hadoop中，主要有以下5类节点：

（1） JobTracker

（2） TaskTracker

（3） NameNode

（4） DataNode

（5） SecondaryNameNode

3、零碎理论

（1）Hadoop将MapReduce的输入分成固定大小的切片，称为input split。大多数情况下，切片的大小与HDFS块的大小相等（默认情况下是64M)。

（2）

4、本地数据优先

Hadoop倾向于在存储数据的节点上进行map处理，这称为data locality optimization。

（1）首先，hadoop倾向于将数据在本地节点进行数据，如图中的a.

（2）若存储数据的节点有其它task正在进行处理，则在本机架内寻找另一个节点进行数据处理，如图中b。

（3）若本机架内所有节点均有task正在进行处理，则在其它机架内寻找节点进行数据处理。

5、MapReduce的数据流向

（1）单reducer情况

（2）多reducer情况

6、Combiner

在map与reduce之间，可以增加combiner函数，对map产生的结果进行预处理。

Hadoop基本原理之一：MapReduce相关推荐

Hadoop 生态之 MapReduce 及 Hive 简介
作者 | 李一帆杏仁Java工程师.关注后端开发. 1.计算框架 Hadoop 是一个计算框架,目前大型数据计算框架常用的大致有五种: 仅批处理框架:Apache hadoop. 仅流处理框架:Ap ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
文件数据云计算学习笔记---Hadoop HDFS和MapReduce 架构浅析
本文是一篇关于文件数据的帖子媒介 Hadoop是一个基于Java的分布式麋集数据处理和数据分析的软件框架.Hadoop在很大程度上是受Google在2004年白皮书中论述的MapReduce技术的启 ...
如何在Hadoop上编写MapReduce程序
1. 概述 1970年,IBM的研究员E.F.Codd博士在刊物<Communication of the ACM>上发表了一篇名为"A Relational Model of ...
Hadoop+eclipse运行MapReduce程序
前面,我们已经通过eclipse下安装Hadoop的插件配置好了基于Hadoop+eclipse的MapReduce开发环境.现在,我们在这个Hadoop+eclipse环境下运行MapReduce程 ...
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）
从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起 ...
Hadoop学习之MapReduce
Hadoop学习之MapReduce 目录 Hadoop学习之MapReduce 1 MapReduce简介 1.1 什么是MapReduce 1.2 MapReduce的作用 1.3 MapRedu ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Hadoop 2.x MapReduce（MR V1）字数统计示例
Before reading this post, please go through my previous post at "How MapReduce Algorithm Works& ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...

Hadoop基本原理之一：MapReduce

Hadoop基本原理之一：MapReduce相关推荐

最新文章

热门文章