MapReduce之RecordReader理解

RecordReader：其作用就是将数据切分成key/value的形式然后作为输入传给Mapper。

一方法分析：

1.1initialize: 初始化RecordReader，只能被调用一次。

1.2nextKeyValue: 读取下一个key/value键值对

1.3getCurrentKey：获取当前的key

1.4getCurrentValue: 获取当前的value

1.5getProgress: 进度

1.6close: 关闭RecordReader

二 RecordReader运行流程

2.1 MapTask会构造一个NewTrackingRecordReader对象

2.2在执行Mapper#run方法之前会调用RecordReader的initialize方法初始化一些东西。

2.3在这个初始化方法里面，它会调用InputFormat#createRecordRead

er方法，我们知道默认的InputFormat就是TextInputFormat，所以这里就回到用TextInputFormat#createRecordReader,返回LineRecordRead

er。

2.4 初始化方法他会干这几样事情：

#将InputSplit转成FileSplit

#获取每一行能读取的最大的长度默认是Integer.MAX_VALUE

#获取当前FileSplit的开始位置

#获取当前FileSplit的结束位置

#获取当前FileSplit的文件路径

2.5 然后进入Mapper#run方法，首先会判断是否有下一个key/value，如果有则传入当前的key和value到map方法.

2.6 LineRecordReader是将当前行开始位置的offset作为key，当前行的值作为value传入给map方法

2.7 程序运行完毕，关闭RecordReader

三常见的RecordReader

LineRecordReader:将文本行开始的便宜量作为key,整个文本行作为value

CombineFileRecordReader:处理CombineInputSplit里的每一个chunk

的RecordReader，CombineInputSplit包含不同的小文件chunk信息

但是具体读取每一个文件的数据，是由单独的RecordReader来读取的，CombineFileRecordReader只负责操作chunk数据

DBRecordReader:从数据库表中读取数据

KeyValueRecordReader:根据指定的分割符却切分每一行数据，如果没有指定分割符，那么key就是整行的文本，value就是空

四自定义RecordReader

public static class CombineFileLineRecordReader

extends RecordReader<WordOffset, Text> {

private long startOffset; //offset of the chunk;

private long end; //end of the chunk;

private long pos; // current pos

private FileSystem fs;

private Pathpath;

private WordOffsetkey;

private Textvalue;

private FSDataInputStreamfileIn;

private LineReaderreader;

public CombineFileLineRecordReader(CombineFileSplit split,

TaskAttemptContext context, Integer index) throws IOException {

this.path =split.getPath(index);

fs = this.path.getFileSystem(context.getConfiguration());

this.startOffset =split.getOffset(index);

this.end =startOffset + split.getLength(index);

boolean skipFirstLine = false;

//open the file

fileIn = fs.open(path);

if (startOffset !=0) {

skipFirstLine = true;

--startOffset;

fileIn.seek(startOffset);

}

reader = newLineReader(fileIn);

if (skipFirstLine) { // skip first line and re-establish "startOffset".

startOffset += reader.readLine(newText(), 0,

(int)Math.min((long)Integer.MAX_VALUE,end - startOffset));

}

this.pos =startOffset;

}

public void initialize(InputSplitsplit, TaskAttemptContextcontext)

throws IOException, InterruptedException {

}

public void close() throws IOException { }

public float getProgress() throws IOException {

if (startOffset ==end) {

return0.0f;

} else {

return Math.min(1.0f, (pos -startOffset) / (float)(end -startOffset));

}

public boolean nextKeyValue() throws IOException {

if (key ==null) {

key = newWordOffset();

key.fileName =path.getName();

}

key.offset =pos;

if (value ==null) {

value = newText();

}

int newSize = 0;

if (pos <end) {

newSize = reader.readLine(value);

pos += newSize;

}

if (newSize ==0) {

key = null;

value = null;

return false;

} else {

return true;

}

public WordOffsetgetCurrentKey()

throws IOException, InterruptedException {

return key;

}

public TextgetCurrentValue() throws IOException, InterruptedException {

return value;

}

MapReduce之RecordReader理解相关推荐

大数据培训之核心知识点Hbase、Hive、Spark和MapReduce的概念理解、特点及机制等
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
MapReduce之InputFormat理解
一 InputFormat主要作用: #验证job的输入规范 #对输入的文件进行切分,形成多个InputSplit文件,每一个InputSplit对应着一个map任务 #创建RecordReader, ...
MapReduce优劣，理解MapReduce与Hadoop
MapReduce是一种计算模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程 ...
MapReduce之OutputFormat理解
一 OutputFormat作用 1校验job中指定输出路径是否存在 2将结果写入输出文件二 OutputFormat的实现 2.1DBOutputFormat: 发送Reduce结果到SQL表中 ...
MapReduce之RecordWriter理解
RecordWriter:其实主要就是负责将task的key/value结果写入内存或者磁盘一方法分析 1.1 write:写key/value键值对 1.2 close: 关闭RecordWri ...
qt怎么输出一个map里的所有键值_《长安十二时辰》里的MapReduce原理
一什么是MapReduce MapReduce是一种编程模型,也是一个处理和生成超大数据集的算法模型的相关实现.最早是由谷歌2004年公布的 MapReduce论文,论文描述了大数据的分布式计算方式 ...
【大数据实验】06：MapReduce操作
MapReduce操作 OVERVIEW MapReduce操作实验环境一.WordCount单词计数 1.实验内容 2.实验原理 3.实验步骤 (1)启动Hadoop集群 (2)准备数据文件 ( ...
2.2.1 hadoop体系之离线计算-mapreduce分布式计算-mapreduce架构概念
目录 1.写在前面 2.为什么需要MapReduce? 3.MapReduce具体细节 3.1 Hadoop MapReduce构思: 4.block,split,map,reduce关系 5.Shu ...
MapReduce的核心资料索引 [转]
转自http://prinx.blog.163.com/blog/static/190115275201211128513868/和http://www.cnblogs.com/jie46583173 ...

MapReduce之RecordReader理解

MapReduce之RecordReader理解相关推荐

最新文章

热门文章