Map-Reduce

主要从以下几个方面来学习：

分布式系统
计算模型
调度与数据流
改进与优化

1. 分布式系统

集群的架构

集群计算需要面临的问题：

怎样保持数据的可持续性
当某些节点出现故障时并不影响使用数据
网络带宽为1 Gbps，移动10TB数据需要花费近一天的时间
分布式编程很复杂

Map-Reduce集群运算时问题的解决方案

在多节点上冗余地存储数据，以保证数据的持续性和一直可取性
将计算移向数据端，以最大程度减少数据移动
简单的程序模型隐藏所有的复杂度

分布式文件存储系统

提供全局的文件命名空间，冗余度和可获取性：例如Google 的 GFS; Hadoop 的 HDFS

典型的应用场景与模式

超大级别的数据量(100GB到100TB级别)
数据很少就地整个被替换
最常见的操作为读取和追加数据
分布式文件系统
服务器块
 文件被分作16-64MB大小的连续块
 每个文件块会被重复地存储2到3次
 尽量保证重复的数据块在不同的机架上
主节点
 Hadoop的HDFS里叫做Name节点
 存储元数据记录文件存储结构和地址
 也可以重复
文件访问的客户端库
 询问主节点以获取块服务器地址
 直接连接相应服务器块获取数据

举个例子：对词频进行统计
现有一个超大的文本文件，对每个文本中的词，统计它出现的次数。
场景1：

文件本身太大无法全部载入内存
所有的词和频次对<word,count>以字典的形式载入内存
场景2:
所有的词和频次对<word, count> 都超出了内存大小
words(doc.txt)| sort | uniq -c ( linux命令)
其中words命令输出一个文本内容中所有词，一个一行
场景2体现了MapReduce的精髓
它是纯天然并行化的

2.计算模型

Map步骤:

Reduce步骤：

Map：
读取输入文本，产生一序列键值对
按照key进行排序：
将所有相同key的键值对排在一起
Reduce：
收集和统计对应同一个key的value并输出

伪代码

map(key, value):key: 文档名称; value: 文档的文本内容for each word w in value:emit(w, 1)
reduce(key, values):key: 一个单词; value: 一个计数的迭代器result = 0for each count v in values:result += vemit(key, result)

3. 调度与数据流

并行化：将key，value划分到不同的reduce任务中。

输入和输出都被存储在分布式文件系统(DFS)上:

实际调度操作时，调度器会尽可能将map任务移至靠近数据物理存储的节点上
中间结果将会被存储在Map和Reduce操作的本地文件系统上
实际运行过程中，一个Map-Reduce产生的结果，很有可能作为另一个Map-Reduce任务的输入

启动多少个Map和Reduce任务呢？

实际操作的经验法则：

通常情况下，会让M远大于集群中的节点数
设置为一个分布式文件系统块一个Map任务
提升动态加载平衡，同时加速节点故障时的任务恢复
R比M要小（输出要分布在R个文件上）

4. 改进与优化

我们通过在Mapper中，进行预聚合(pre-aggregating)操作，来节约网络的时间成本。
 合并 (k, list(v1)) → v2
 合并器(combiner)通常和reduce
函数是一致的

注意：只有在满足交换律和结合律的条件下，combiner才能起作用
改进：分区函数

Map-Reduce相关推荐

[ZZ]Map/Reduce hadoop 细节
转自:Venus神庙原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html 分布式计算(Map/Reduce) 分布式计 ...
Hadoop简介(1):什么是Map/Reduce
看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了. Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Red ...
Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0 源代码用法 ...
用通俗易懂的大白话讲解Map/Reduce原理
Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰 ...
python内置函数map reduce filter详解，面试必备知识
面试时候经常会考到 map reduce filter 这三个内置函数的使用 map() 函数 map() 会根据提供的函数对指定序列做映射. 第一个参数 function 以参数序列中的每一个元素调 ...
python3函数中lambda/filter/map/reduce的用法
lambda/filter/map/reduce这几个函数面试中很肯定会用到,本篇主要介绍这几个函数的用法. 1.lambda 匿名函数,用法如下: # lambada 参数,参数,参数 : 返回的表 ...
Hadoop学习：Map/Reduce初探与小Demo实现
一. 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架.这个框架攻克了诸如数据分布式存储.作业调度.容错.机器间通信等复杂问题,能够使没有并行处理或者分布式 ...
MAP/REDUCE:Google和Nutch实现异同及其他
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 张俊林 timestamp:2006年11月26日设计要素 nutch包含以下 ...
Python进阶：函数式编程(高阶函数，map,reduce,filter,sorted,返回函数,匿名函数,偏函数)...啊啊啊...
函数式编程函数是Python内建支持的一种封装,我们通过把大段代码拆成函数,通过一层一层的函数调用,就可以把复杂任务分解成简单的任务,这种分解可以称之为面向过程的程序设计.函数就是面向过程的程序设计 ...
Hadoop Map/Reduce的工作流
问题描述我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...

Map-Reduce

文章目录

Map-Reduce

1. 分布式系统

2.计算模型

3. 调度与数据流

4. 改进与优化

Map-Reduce相关推荐

最新文章

热门文章