hadoop学习；datajoin；chain签名；combine（）

hadoop有种简化机制来管理job和control的非线性作业之间的依赖。job对象时mapreduce的表现形式。job对象的实例化可通过传递一个jobconf对象到作业的构造函数中来实现。

x.addDeopendingJob(y)意味着x在y完毕之前不会启动。

鉴于job对象存储着配置和依赖信息。jobcontrol对象会负责监管作业的运行，通过addjob（）。你能够为jobcontrol加入作业，当全部作业和依赖关系加入完毕后。调用jobcontrol的run（）方法，生成一个线程提交作业并监视其运行，有allFinised（）。getFailedJobs（）方法

hadoop引入chainMapper和chainReducer来简化预处理和后处理

driver会先设置“全局”jobconf对象。包括作业名，输入路径和输出路径等，它一次性加入全部步骤，然后按顺序运行

ChainMapper.addMapper()方法的签名来具体了解怎样一步步的链接作业

byvalue用于推断是否是值传递。若为false则採用引用传递。初始mapper的输出内容保存在内存中，假设后期不再调用传入的值，能够这样，效率高，一般设为true

reduce函数接收输入数据，并对其值进行交叉乘积，reduce生成这些值的全部合并结果。

交叉乘积得到的每一个合并结果被送入函数combine（）（不是combiner）生成一个输出记录。对于随意特定的合并，combine能够选择不输出。交叉乘积的本质确保了combine看到的记录都有同样的连接键

在解释怎样使用DatajoingMapperBase和DataJoinReduceBase之前，你须要了解在代码通篇所使用的一个抽象数据类TaggedMapOutput（用Text标签封装记录的数据类型）

在数据流的描写叙述中，mapper输出的包带有一个组键和一个被标签记录的值。datajoin软件包指定组键为text类型。而值为TaggerMapOutput类型，它详细实现了getTag（）和setTag（Text Tag）方法

作为mapper的输出，TaggerMapOutput必须是Writable类型，因此我们的子类必须实现readFile（）和write（）方法

DataJoinMapper运行全部的封装。指定了三个能够填充的抽象方法

generateInputTag在map任务開始前调用。来为这个map任务所处理的全部记录指定一个全局标签，

假设横跨几个文件，能够用它们的前缀作为标签

完毕map任务初始化后，为每一个记录调用DataJoinMapperBase的map（）方法。里面调用generateTaggedOutput（）和generateGroupKey（）方法

原则上。在同一文件里，不同的记录能够用不同的标签，在标准情况下，我们希望一个标签代表一个数据源，它早先由generateInputTag（）计算好并存在this.InputTag中

hadoop学习；datajoin；chain签名；combine（）相关推荐

Hadoop学习笔记(8) ——实战做个倒排索引
Hadoop学习笔记(8) --实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
hadoop学习之：Map、Reduce详解
Hadoop学习重点主要为HDFS.MapReduce 部分: 接下来重点描述一下MAP与Reduce 的过程. 看了好多资料,如果有错误的地方请大家指出. MAP部分: 下图是官方给予的关于MapR ...
Hadoop学习笔记—10.Shuffle过程那点事儿
Hadoop学习笔记-10.Shuffle过程那点事儿一.回顾Reduce阶段三大步骤在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步骤,其中在Reduc ...
Hadoop学习总结之五：Hadoop的运行痕迹
Hadoop 学习总结之一:HDFS简介 Hadoop学习总结之二:HDFS读写过程解析 Hadoop学习总结之三:Map-Reduce入门 Hadoop学习总结之四:Map-Reduce的过程解析 ...
大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录一.MapReduce理论基础二.Hadoop.Spark学习路线及资源收纳三.MapReduce编程实例 1.自定义对象序列化需求分析报错:Exception in thread ...
Hadoop学习笔记一简要介绍
Hadoop学习笔记一简要介绍这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
我的hadoop学习之路
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上. Ha ...
Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...
Hadoop学习笔记(1)
原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...
Hadoop学习笔记—18.Sqoop框架学习
Hadoop学习笔记-18.Sqoop框架学习一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

hadoop学习；datajoin；chain签名；combine（）

hadoop学习；datajoin；chain签名；combine（）相关推荐

最新文章

热门文章