Map-Reduce
文章目录
- Map-Reduce
- 1. 分布式系统
- 2.计算模型
- 3. 调度与数据流
- 4. 改进与优化
Map-Reduce
主要从以下几个方面来学习:
- 分布式系统
- 计算模型
- 调度与数据流
- 改进与优化
1. 分布式系统
集群的架构
集群计算需要面临的问题:
- 怎样保持数据的可持续性
- 当某些节点出现故障时并不影响使用数据
- 网络带宽为1 Gbps,移动10TB数据需要花费近一天的时间
- 分布式编程很复杂
Map-Reduce集群运算时问题的解决方案
- 在多节点上冗余地存储数据, 以保证数据的持续性和一直可取性
- 将计算移向数据端, 以最大程度减少数据移动
- 简单的程序模型隐藏所有的复杂度
分布式文件存储系统
- 提供全局的文件命名空间,冗余度和可获取性:例如Google 的 GFS; Hadoop 的 HDFS
典型的应用场景与模式
- 超大级别的数据量(100GB到100TB级别)
- 数据很少就地整个被替换
- 最常见的操作为读取和追加数据
- 分布式文件系统
服务器块
文件被分作16-64MB大小的连续块
每个文件块会被重复地存储2到3次
尽量保证重复的数据块在不同的机架上
主节点
Hadoop的HDFS里叫做Name节点
存储元数据记录文件存储结构和地址
也可以重复
文件访问的客户端库
询问主节点以获取块服务器地址
直接连接相应服务器块获取数据
举个例子:对词频进行统计
现有一个超大的文本文件,对每个文本中的词,统计它出现的次数。
场景1:
- 文件本身太大无法全部载入内存
- 所有的词和频次对<word,count>以字典的形式载入内存
场景2: - 所有的词和频次对<word, count> 都超出了内存大小
- words(doc.txt)| sort | uniq -c ( linux命令)
- 其中words命令输出一个文本内容中所有词,一个一行
- 场景2体现了MapReduce的精髓
- 它是纯天然并行化的
2.计算模型
Map步骤:
Reduce步骤:
Map:
读取输入文本,产生一序列键值对
按照key进行排序:
将所有相同key的键值对排在一起
Reduce:
收集和统计对应同一个key的value并输出
伪代码
map(key, value):key: 文档名称; value: 文档的文本内容for each word w in value:emit(w, 1)
reduce(key, values):key: 一个单词; value: 一个计数的迭代器result = 0for each count v in values:result += vemit(key, result)
3. 调度与数据流
并行化:将key,value划分到不同的reduce任务中。
输入和输出都被存储在分布式文件系统(DFS)上:
- 实际调度操作时,调度器会尽可能将map任务移至靠近数据物理存储的节点上
- 中间结果将会被存储在Map和Reduce操作的本地文件系统上
- 实际运行过程中, 一个Map-Reduce产生的结果,很有可能作为另一个Map-Reduce任务的输入
启动多少个Map和Reduce任务呢?
实际操作的经验法则:
- 通常情况下,会让M远大于集群中的节点数
- 设置为一个分布式文件系统块一个Map任务
- 提升动态加载平衡,同时加速节点故障时的任务恢复
- R比M要小(输出要分布在R个文件上)
4. 改进与优化
我们通过在Mapper中,进行预聚合(pre-aggregating)操作,来节约网络的时间成本。
合并 (k, list(v1)) → v2
合并器(combiner)通常和reduce
函数是一致的
注意:只有在满足交换律和结合律的条件下,combiner才能起作用
改进:分区函数
Map-Reduce相关推荐
- [ZZ]Map/Reduce hadoop 细节
转自:Venus神庙原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html 分布式计算(Map/Reduce) 分布式计 ...
- Hadoop简介(1):什么是Map/Reduce
看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了. Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Red ...
- Hadoop Map/Reduce教程
Hadoop Map/Reduce教程 目的 先决条件 概述 输入与输出 例子:WordCount v1.0 源代码 用法 ...
- 用通俗易懂的大白话讲解Map/Reduce原理
Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰 ...
- python内置函数map reduce filter详解,面试必备知识
面试时候经常会考到 map reduce filter 这三个内置函数的使用 map() 函数 map() 会根据提供的函数对指定序列做映射. 第一个参数 function 以参数序列中的每一个元素调 ...
- python3函数中lambda/filter/map/reduce的用法
lambda/filter/map/reduce这几个函数面试中很肯定会用到,本篇主要介绍这几个函数的用法. 1.lambda 匿名函数,用法如下: # lambada 参数,参数,参数 : 返回的表 ...
- Hadoop学习:Map/Reduce初探与小Demo实现
一. 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架.这个框架攻克了诸如数据分布式存储.作业调度.容错.机器间通信等复杂问题,能够使没有并行 处理或者分布式 ...
- MAP/REDUCE:Google和Nutch实现异同及其他
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 张俊林 timestamp:2006年11月26日 设计要素 nutch包含以下 ...
- Python进阶:函数式编程(高阶函数,map,reduce,filter,sorted,返回函数,匿名函数,偏函数)...啊啊啊...
函数式编程 函数是Python内建支持的一种封装,我们通过把大段代码拆成函数,通过一层一层的函数调用,就可以把复杂任务分解成简单的任务,这种分解可以称之为面向过程的程序设计.函数就是面向过程的程序设计 ...
- Hadoop Map/Reduce的工作流
问题描述 我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...
最新文章
- linux下接口持续集成,部署jenkins持续集成工具
- Cypress USB开发文档列表(积累中)
- 附录3:Pandas实例记录
- 数据结构之优先队列--二叉堆(Java实现)
- [leetcode] 108.有序数组转换为二叉搜索树
- 到底逾期几次才会影响贷款申请?
- 独家 | 蚂蚁金服TRaaS技术风险防控平台解密
- Sublime Text 设置在标签页中打开文件
- 深度学习之 FPN (Feature Pyramid Networks)
- 从源码的角度再看 React JS 中的 setState
- flink中的HybirdmemorySegment
- 学习笔记(02):MySQL数据库运维与管理-03-状态变量及查看方法
- F14-lnmp,wordpress,discuz
- 对比AppScan Source和Fortify扫描AltoroJ的结果
- LVM扩容之xfs文件系统
- 合规不利于安全的五种情形
- 浏览器被hao360,hao123,2345,搜狗,www.xie116.xyz/ 劫持的方法
- 数独游戏代码C++解法
- 【性能测试基础】性能专有名词解析及性能瓶颈分析技巧
- 【微前端开发环境下,加载远程子应用的实战。】