Shuffle过程是会按照Map中输出的key，把数据默认分到一个分区中，那么默认的是如何实现的？

HashPartitioner是Partitioner默认的分区规则，其中numReduceTasks就是指定的Reducer的个数，决定了Reducer作业输出文件的个数。

自定义Partitioner

package com.imooc.bigdata.hadoop.mr.access;import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;/*** MapReduce自定义分区规则*/
public class AccessPartition extends Partitioner<Text, Access> {/*** @param phone         手机号* @param access* @param numPartitions* @return*/@Overridepublic int getPartition(Text phone, Access access, int numPartitions) {if (phone.toString().startsWith("13")) {return 0;} else if (phone.toString().startsWith("15")) {return 1;} else {return 2;}}
}

在main方法中配置：

        // 设置自定义分区规则job.setPartitionerClass(AccessPartition.class);// 设置reduce个数job.setNumReduceTasks(3);

这样就将结果输出到不同的文件中去了。

MapReduce自定义Partitioner相关推荐

获取系统URL访问的前三名（通过Scala方式实现/通过Spark方式实现），Spark将URL访问日志进行分类并通过自定义Partitioner的方式将文件写入到不同分区上
1.创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/74571374 2.准备日志文件 url.log的内容类 ...
使用Mapreduce案例编写用于统计文本中单词出现的次数的案例、mapreduce本地运行等，Combiner使用及其相关的知识，流量统计案例和流量总和以及流量排序案例，自定义Partitioner
工程结构: 在整个案例过程中,代码如下: WordCountMapper的代码如下: package cn.toto.bigdata.mr.wc; import java.io.IOException ...
hadoop之MapReduce自定义二次排序流程实例详解
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求 ...
MapReduce之Partitioner的理解
我们知道在执行map任务的时候,会将key/value写入内存或者磁盘. 这个时候我们在往内存写数据的时候,会根据key创建分区. 问题一:为什要创建分区? 我们如果文件很大,我们只使用一个reduc ...
MapReduce自定义Job示例一：高温统计
一自定义jar的流程配置相关的内容自定义map输出的k,v类(此类必须实现WritableComparable序列化和比较器接口,实现序列化,反序列化和通用排序方法) 自定义Map类(必须继承M ...
MapReduce自定义排序、分区、分组案例
一.题目数据:由于数据量比较大,放入百度网盘中链接: https://pan.baidu.com/s/13vHZ1v7Rw2Vbb5wZrWX0cA 提取码: 6qug 字段说明班级 ...
MapReduce自定义二次排序流程
每一条记录开始是进入到map函数进行处理,处理完了之后立马就入自定义分区函数中对其进行分区,当所有输入数据经过map函数和分区函数处理完之后,就调用自定义二次排序函数对其进行排序. MapReduce ...
Mapreduce自定义数据类型
Hadoop自带的数据类型: Intwritable,LongWritable,Text,xxWritable. 某些情况下:使用自定义的数据类型方便一些(类似java中的pojo). 实现: 实现w ...
MapReduce 自定义计数器
MapReduce 允许用户编写程序来定义计数器,计数器的值可在 mapper 或 reduce 中增加,计数器由一个 Java 枚举(enum)类型来定义,以便对有关的计数器分组,一个作业可以定义的 ...

MapReduce自定义Partitioner

自定义Partitioner

MapReduce自定义Partitioner相关推荐

最新文章

热门文章