一、问题描述

三个文件中分别存储了学生的语文、数学和英语成绩，输出每个学生的平均分。

数据格式如下：
Chinese.txt

张三    78
李四    89
王五    96
赵六    67

Math.txt

张三    88
李四    99
王五    66
赵六    77

English.txt

张三    80
李四    82
王五    84
赵六    86

二、MapReduce编程

package com.javacore.hadoop;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;/*** Created by bee on 3/29/17.*/
public class StudentAvgDouble {public static class MyMapper extends Mapper<Object, Text, Text, DoubleWritable> {public void map(Object key, Text value, Context context) throws IOException, InterruptedException {String eachline = value.toString();StringTokenizer tokenizer = new StringTokenizer(eachline, "\n");while (tokenizer.hasMoreElements()) {StringTokenizer tokenizerLine = new StringTokenizer(tokenizer.nextToken());String strName = tokenizerLine.nextToken();String strScore = tokenizerLine.nextToken();Text name = new Text(strName);IntWritable score = new IntWritable(Integer.parseInt(strScore));context.write(name, score);}}}public static class MyReducer extends Reducer<Text, DoubleWritable, Text, DoubleWritable> {public void reduce(Text key, Iterable<DoubleWritable> values, Contextcontext) throws IOException, InterruptedException {double sum = 0.0;int count = 0;for (DoubleWritable val : values) {sum += val.get();count++;}DoubleWritable avgScore = new DoubleWritable(sum / count);context.write(key, avgScore);}}public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//删除output文件夹FileUtil.deleteDir("output");Configuration conf = new Configuration();String[] otherArgs = new String[]{"input/studentAvg", "output"};if (otherArgs.length != 2) {System.out.println("参数错误");System.exit(2);}Job job = Job.getInstance();job.setJarByClass(StudentAvgDouble.class);job.setMapperClass(MyMapper.class);job.setReducerClass(MyReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(DoubleWritable.class);FileInputFormat.addInputPath(job, new Path(otherArgs[0]));FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

三、StringTokenizer和Split的用法对比

map函数里按行读入，每行按空格切开，之前我采用的split()函数切分，代码如下。

 String eachline = value.toString();for (String eachline : lines) {System.out.println("eachline:\t"+eachline);String[] words = eachline.split("\\s+");Text name = new Text(words[0]);IntWritable score = new IntWritable(Integer.parseInt(words[1]));context.write(name, score);}

这种方式简单明了，但是也存在缺陷，对于非正常编码的空格有时候会出现切割失败的情况。
StringTokenizer是java.util包中分割解析类，StringTokenizer类的构造函数有三个:

StringTokenizer（String str）：java默认的分隔符是“空格”、“制表符（‘\t’）”、“换行符(‘\n’）”、“回车符（‘\r’）。
StringTokenizer（String str,String delim）:可以构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符。
StringTokenizer（String str,String delim,boolean returnDelims）：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符，同时，指定是否返回分隔符。

StringTokenizer和Split都可以对字符串进行切分，StringTokenizer的性能更高一些，分隔符如果用到一些特殊字符，StringTokenizer的处理结果更好。

四、运行结果

张三  82.0
李四  90.0
王五  82.0
赵六  76.66666666666667

MapReduce编程(四) 求均值相关推荐

MapReduce编程之求每个学生的最高成绩及对应科目（使用GroupingComparator和SortComparator）
stuscore.csv 1,鸿飞,语文,84 2,鹏海,语文,85 3,铭晨,语文,86 4,霑千昌,语文,87 5,智宇,语文,88 6,景彰,语文,89 7,辰铭,语文,90 8,曜灿,语文,9 ...
MapReduce编程之求每门科目的前三名（重写student类中的compareTo方法）
stuscore.csv 1,鸿飞,语文,84 2,鹏海,语文,85 3,铭晨,语文,86 4,霑千昌,语文,87 5,智宇,语文,88 6,景彰,语文,89 7,辰铭,语文,90 8,曜灿,语文,9 ...
【赵强老师】MapReduce编程案例之求工资总额
先看视频. [赵强老师]MapReduce编程案例之求工资总额 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上, ...
MapReducer——MapReduce编程案例：求部门的工资总额（2）
MapReduce编程案例:求部门的工资总额 1.员工表 SQL:select deptno,sum(sal) from emp group by deptno; 2.分析数据处理的过程 3.开发程 ...
大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录一.MapReduce理论基础二.Hadoop.Spark学习路线及资源收纳三.MapReduce编程实例 1.自定义对象序列化需求分析报错:Exception in thread ...
mapreduce 编程模型
MapReduce是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架,它适用的应用场景往往具有一个共同的特点:任务可被分解成相互独立的子问题.基于该特点,MapReduce编程模型给出了其分布 ...
大数据之hadoop伪集群搭建与MapReduce编程入门
一.理论知识预热一句话介绍hadoop: Hadoop的核心由分布式文件系统HDFS与Map/Reduce计算模型组成. (1)HDFS分布式文件系统 HDFS由三个角色构成: 1)NameNode ...
Hadoop大数据--Mapreduce编程规范及入门示例
Mapreduce是一个分布式的运算编程框架,核心功能是将用户编写的核心逻辑代码分布式地运行在一个集群的很多服务器上. Mapreduce的存在价值 (1)海量数据在单机上处理因为硬件资源限制,无法胜 ...
MapReduce编程实践
一.MapReduce编程思想学些MapRedcue主要是学习它的编程思想,在MR的编程模型中,主要思想是把对数据的运算流程分成map和reduce两个阶段: Map阶段:读取原始数据,形成key- ...

MapReduce编程(四) 求均值

一、问题描述

二、MapReduce编程

三、StringTokenizer和Split的用法对比

四、运行结果

MapReduce编程(四) 求均值相关推荐

最新文章

热门文章