6.1 MapReduce 跑的慢的原因

6.2 MapReduce优化方法

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

6.2.1 数据输入

6.2.2 Map阶段

6.2.3 Reduce阶段

6.2.4 I/O传输

6.2.5 数据倾斜问题

6.2.6 常用的调优参数

1．资源相关参数

（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

表4-12

配置参数	参数说明
mapreduce.map.memory.mb	一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.reduce.memory.mb	一个ReduceTask可使用的资源上限（单位:MB），默认为1024。如果ReduceTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.map.cpu.vcores	每个MapTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.cpu.vcores	每个ReduceTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.shuffle.parallelcopies	每个Reduce去Map中取数据的并行数。默认值是5
mapreduce.reduce.shuffle.merge.percent	Buffer中的数据达到多少比例开始写入磁盘。默认值0.66
mapreduce.reduce.shuffle.input.buffer.percent	Buffer大小占Reduce可用内存的比例。默认值0.7
mapreduce.reduce.input.buffer.percent	指定多少比例的内存用来存放Buffer中的数据，默认值是0.0

（2）应该在YARN启动之前就配置在服务器的配置文件中才能生效（yarn-default.xml）

表4-13

配置参数	参数说明
yarn.scheduler.minimum-allocation-mb	给应用程序Container分配的最小内存，默认值：1024
yarn.scheduler.maximum-allocation-mb	给应用程序Container分配的最大内存，默认值：8192
yarn.scheduler.minimum-allocation-vcores	每个Container申请的最小CPU核数，默认值：1
yarn.scheduler.maximum-allocation-vcores	每个Container申请的最大CPU核数，默认值：32
yarn.nodemanager.resource.memory-mb	给Containers分配的最大物理内存，默认值：8192

（3）Shuffle性能优化的关键参数，应在YARN启动之前就配置好（mapred-default.xml）

表4-14

配置参数	参数说明
mapreduce.task.io.sort.mb	Shuffle的环形缓冲区大小，默认100m
mapreduce.map.sort.spill.percent	环形缓冲区溢出的阈值，默认80%

2．容错相关参数(MapReduce性能优化)

表4-15

配置参数	参数说明
mapreduce.map.maxattempts	每个Map Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4。
mapreduce.reduce.maxattempts	每个Reduce Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4。
mapreduce.task.timeout	Task超时时间，经常需要设置的一个参数，该参数表达的意思为：如果一个Task在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该Task处于Block状态，可能是卡住了，也许永远会卡住，为了防止因为用户程序永远Block住不退出，则强制设置了一个该超时时间（单位毫秒），默认是600000。如果你的程序对每条输入数据的处理时间过长（比如会访问数据库，通过网络拉取数据等），建议将该参数调大，该参数过小常出现的错误提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”。

6.3 HDFS小文件优化方法

6.3.1 HDFS小文件弊端

HDFS上每个文件都要在NameNode上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用NameNode的内存空间，另一方面就是索引文件过大使得索引速度变慢。

6.3.2 HDFS小文件解决方案

小文件的优化无非以下几种方式：

（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。

（2）在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合并。

（3）在MapReduce处理时，可采用CombineTextInputFormat提高效率。

第7章 MapReduce扩展案例

7.1 倒排索引案例（多job串联）

1．需求

有大量的文本（文档、网页），需要建立搜索索引，如图4-31所示。

（1）数据输入

（2）期望输出数据

newbies c.txt-->2 b.txt-->2 a.txt-->3

pingping c.txt-->1 b.txt-->3 a.txt-->1

ss c.txt-->1 b.txt-->1 a.txt-->2

2．需求分析

3．第一次处理

（1）第一次处理，编写OneIndexMapper类

package com.newbies.mapreduce.index;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;public class OneIndexMapper extends Mapper<LongWritable, Text, Text, IntWritable>{String name;Text k = new Text();IntWritable v = new IntWritable();@Overrideprotected void setup(Context context)throws IOException, InterruptedException {// 获取文件名称FileSplit split = (FileSplit) context.getInputSplit();name = split.getPath().getName();}@Overrideprotected void map(LongWritable key, Text value, Context context)  throws IOException, InterruptedException {// 1 获取1行String line = value.toString();// 2 切割String[] fields = line.split(" ");for (String word : fields) {// 3 拼接k.set(word+"--"+name);v.set(1);// 4 写出context.write(k, v);}}
}

（2）第一次处理，编写OneIndexReducer类

package com.newbies.mapreduce.index;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class OneIndexReducer extends Reducer<Text, IntWritable, Text, IntWritable>{IntWritable v = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {int sum = 0;// 1 累加求和for(IntWritable value: values){sum +=value.get();}v.set(sum);// 2 写出context.write(key, v);}
}

（3）第一次处理，编写OneIndexDriver类

package com.newbies.mapreduce.index;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class OneIndexDriver {public static void main(String[] args) throws Exception {// 输入输出路径需要根据自己电脑上实际的输入输出路径设置args = new String[] { "e:/input/inputoneindex", "e:/output5" };Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(OneIndexDriver.class);job.setMapperClass(OneIndexMapper.class);job.setReducerClass(OneIndexReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));job.waitForCompletion(true);}
}

（4）查看第一次输出结果

newbies--a.txt   3
newbies--b.txt  2
newbies--c.txt  2
pingping--a.txt 1
pingping--b.txt 3
pingping--c.txt 1
ss--a.txt   2
ss--b.txt   1
ss--c.txt   1

4．第二次处理

（1）第二次处理，编写TwoIndexMapper类

package com.newbies.mapreduce.index;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class TwoIndexMapper extends Mapper<LongWritable, Text, Text, Text>{Text k = new Text();Text v = new Text();@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 1 获取1行数据String line = value.toString();// 2用“--”切割String[] fields = line.split("--");k.set(fields[0]);v.set(fields[1]);// 3 输出数据context.write(k, v);}
}

（2）第二次处理，编写TwoIndexReducer类

package com.newbies.mapreduce.index;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class TwoIndexReducer extends Reducer<Text, Text, Text, Text> {Text v = new Text();@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {// newbies a.txt 3// newbies b.txt 2// newbies c.txt 2// newbies c.txt-->2 b.txt-->2 a.txt-->3StringBuilder sb = new StringBuilder();// 1 拼接for (Text value : values) {sb.append(value.toString().replace("\t", "-->") + "\t");}v.set(sb.toString());// 2 写出context.write(key, v);}
}

（3）第二次处理，编写TwoIndexDriver类

package com.newbies.mapreduce.index;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class TwoIndexDriver {public static void main(String[] args) throws Exception {// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
args = new String[] { "e:/input/inputtwoindex", "e:/output6" };Configuration config = new Configuration();Job job = Job.getInstance(config);job.setJarByClass(TwoIndexDriver.class);job.setMapperClass(TwoIndexMapper.class);job.setReducerClass(TwoIndexReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));boolean result = job.waitForCompletion(true);
System.exit(result?0:1);}
}

（4）第二次查看最终结果

newbies  c.txt-->2    b.txt-->2    a.txt-->3
pingping    c.txt-->1    b.txt-->3    a.txt-->1
ss  c.txt-->1    b.txt-->1    a.txt-->2

7.2 TopN案例

1．需求

对需求2.3输出结果进行加工，输出流量使用量在前10的用户信息

（1）输入数据（2）输出数据

2．需求分析

3．实现代码

（1）编写FlowBean类

package com.newbies.mr.top;import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class FlowBean implements WritableComparable<FlowBean>{private long upFlow;private long downFlow;private long sumFlow;public FlowBean() {super();}public FlowBean(long upFlow, long downFlow) {super();this.upFlow = upFlow;this.downFlow = downFlow;}@Overridepublic void write(DataOutput out) throws IOException {out.writeLong(upFlow);out.writeLong(downFlow);out.writeLong(sumFlow);}@Overridepublic void readFields(DataInput in) throws IOException {upFlow = in.readLong();downFlow = in.readLong();sumFlow = in.readLong();}public long getUpFlow() {return upFlow;}public void setUpFlow(long upFlow) {this.upFlow = upFlow;}public long getDownFlow() {return downFlow;}public void setDownFlow(long downFlow) {this.downFlow = downFlow;}public long getSumFlow() {return sumFlow;}public void setSumFlow(long sumFlow) {this.sumFlow = sumFlow;}@Overridepublic String toString() {return upFlow + "\t" + downFlow + "\t" + sumFlow;}public void set(long downFlow2, long upFlow2) {downFlow = downFlow2;upFlow = upFlow2;sumFlow = downFlow2 + upFlow2;}@Overridepublic int compareTo(FlowBean bean) {int result;if (this.sumFlow > bean.getSumFlow()) {result = -1;}else if (this.sumFlow < bean.getSumFlow()) {result = 1;}else {result = 0;}return result;}
}

（2）编写TopNMapper类

package com.newbies.mr.top;import java.io.IOException;
import java.util.Iterator;
import java.util.TreeMap;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class TopNMapper extends Mapper<LongWritable, Text, FlowBean, Text>{// 定义一个TreeMap作为存储数据的容器（天然按key排序）private TreeMap<FlowBean, Text> flowMap = new TreeMap<FlowBean, Text>();private FlowBean kBean;@Overrideprotected void map(LongWritable key, Text value, Context context)   throws IOException, InterruptedException {kBean = new FlowBean();Text v = new Text();// 1 获取一行String line = value.toString();// 2 切割String[] fields = line.split("\t");// 3 封装数据String phoneNum = fields[0];long upFlow = Long.parseLong(fields[1]);long downFlow = Long.parseLong(fields[2]);long sumFlow = Long.parseLong(fields[3]);kBean.setDownFlow(downFlow);kBean.setUpFlow(upFlow);kBean.setSumFlow(sumFlow);v.set(phoneNum);// 4 向TreeMap中添加数据flowMap.put(kBean, v);// 5 限制TreeMap的数据量，超过10条就删除掉流量最小的一条数据if (flowMap.size() > 10) {
//      flowMap.remove(flowMap.firstKey());flowMap.remove(flowMap.lastKey());
}}@Overrideprotected void cleanup(Context context) throws IOException, InterruptedException {// 6 遍历treeMap集合，输出数据Iterator<FlowBean> bean = flowMap.keySet().iterator();while (bean.hasNext()) {FlowBean k = bean.next();context.write(k, flowMap.get(k));}}
}

（3）编写TopNReducer类

package com.newbies.mr.top;import java.io.IOException;
import java.util.Iterator;
import java.util.TreeMap;import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class TopNReducer extends Reducer<FlowBean, Text, Text, FlowBean> {// 定义一个TreeMap作为存储数据的容器（天然按key排序）TreeMap<FlowBean, Text> flowMap = new TreeMap<FlowBean, Text>();@Overrideprotected void reduce(FlowBean key, Iterable<Text> values, Context context)throws IOException, InterruptedException {for (Text value : values) {FlowBean bean = new FlowBean();bean.set(key.getDownFlow(), key.getUpFlow());// 1 向treeMap集合中添加数据flowMap.put(bean, new Text(value));// 2 限制TreeMap数据量，超过10条就删除掉流量最小的一条数据if (flowMap.size() > 10) {// flowMap.remove(flowMap.firstKey());
flowMap.remove(flowMap.lastKey());}}}@Overrideprotected void cleanup(Reducer<FlowBean, Text, Text, FlowBean>.Context context) throws IOException, InterruptedException {// 3 遍历集合，输出数据Iterator<FlowBean> it = flowMap.keySet().iterator();while (it.hasNext()) {FlowBean v = it.next();context.write(new Text(flowMap.get(v)), v);}}
}

（4）编写TopNDriver类

package com.newbies.mr.top;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class TopNDriver {public static void main(String[] args) throws Exception {args  = new String[]{"e:/output1","e:/output3"};// 1 获取配置信息，或者job对象实例Configuration configuration = new Configuration();Job job = Job.getInstance(configuration);// 6 指定本程序的jar包所在的本地路径job.setJarByClass(TopNDriver.class);// 2 指定本业务job要使用的mapper/Reducer业务类job.setMapperClass(TopNMapper.class);job.setReducerClass(TopNReducer.class);// 3 指定mapper输出数据的kv类型job.setMapOutputKeyClass(FlowBean.class);job.setMapOutputValueClass(Text.class);// 4 指定最终输出的数据的kv类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(FlowBean.class);// 5 指定job的输入原始文件所在目录FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));// 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行boolean result = job.waitForCompletion(true);System.exit(result ? 0 : 1);}
}

7.3 找博客共同好友案例

1．需求

以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）

求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

（1）数据输入

2．需求分析

先求出A、B、C、….等是谁的好友

第一次输出结果

A    I,K,C,B,G,F,H,O,D,
B   A,F,J,E,
C   A,E,B,H,F,G,K,
D   G,C,K,A,L,F,E,H,
E   G,M,L,H,A,F,B,D,
F   L,M,D,C,G,A,
G   M,
H   O,
I   O,C,
J   O,
K   B,
L   D,E,
M   E,F,
O   A,H,I,J,F,

第二次输出结果

A-B  E C
A-C D F
A-D E F
A-E D B C
A-F O B C D E
A-G F E C D
A-H E C D O
A-I O
A-J O B
A-K D C
A-L F E D
A-M E F
B-C A
B-D A E
B-E C
B-F E A C
B-G C E A
B-H A E C
B-I A
B-K C A
B-L E
B-M E
B-O A
C-D A F
C-E D
C-F D A
C-G D F A
C-H D A
C-I A
C-K A D
C-L D F
C-M F
C-O I A
D-E L
D-F A E
D-G E A F
D-H A E
D-I A
D-K A
D-L E F
D-M F E
D-O A
E-F D M C B
E-G C D
E-H C D
E-J B
E-K C D
E-L D
F-G D C A E
F-H A D O E C
F-I O A
F-J B O
F-K D C A
F-L E D
F-M E
F-O A
G-H D C E A
G-I A
G-K D A C
G-L D F E
G-M E F
G-O A
H-I O A
H-J O
H-K A C D
H-L D E
H-M E
H-O A
I-J O
I-K A
I-O A
K-L D
K-O A
L-M E F

3．代码实现

（1）第一次Mapper类

package com.newbies.mapreduce.friends;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class OneShareFriendsMapper extends Mapper<LongWritable, Text, Text, Text>{@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)throws IOException, InterruptedException {// 1 获取一行 A:B,C,D,F,E,OString line = value.toString();// 2 切割String[] fields = line.split(":");// 3 获取person和好友String person = fields[0];String[] friends = fields[1].split(",");// 4写出去for(String friend: friends){// 输出 <好友，人>context.write(new Text(friend), new Text(person));}}
}

（2）第一次Reducer类

package com.newbies.mapreduce.friends;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class OneShareFriendsReducer extends Reducer<Text, Text, Text, Text>{@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context)throws IOException, InterruptedException {StringBuffer sb = new StringBuffer();//1 拼接for(Text person: values){sb.append(person).append(",");}//2 写出context.write(key, new Text(sb.toString()));}
}

（3）第一次Driver类

package com.newbies.mapreduce.friends;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class OneShareFriendsDriver {public static void main(String[] args) throws Exception {// 1 获取job对象Configuration configuration = new Configuration();Job job = Job.getInstance(configuration);// 2 指定jar包运行的路径job.setJarByClass(OneShareFriendsDriver.class);// 3 指定map/reduce使用的类job.setMapperClass(OneShareFriendsMapper.class);job.setReducerClass(OneShareFriendsReducer.class);// 4 指定map输出的数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);// 5 指定最终输出的数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);// 6 指定job的输入原始所在目录FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));// 7 提交boolean result = job.waitForCompletion(true);System.exit(result?0:1);}
}

（4）第二次Mapper类

package com.newbies.mapreduce.friends;
import java.io.IOException;
import java.util.Arrays;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class TwoShareFriendsMapper extends Mapper<LongWritable, Text, Text, Text>{@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// A I,K,C,B,G,F,H,O,D,// 友 人，人，人String line = value.toString();String[] friend_persons = line.split("\t");String friend = friend_persons[0];String[] persons = friend_persons[1].split(",");Arrays.sort(persons);for (int i = 0; i < persons.length - 1; i++) {for (int j = i + 1; j < persons.length; j++) {// 发出 <人-人，好友> ，这样，相同的“人-人”对的所有好友就会到同1个reduce中去context.write(new Text(persons[i] + "-" + persons[j]), new Text(friend));}}}
}

（5）第二次Reducer类

package com.newbies.mapreduce.friends;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class TwoShareFriendsReducer extends Reducer<Text, Text, Text, Text>{@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context)    throws IOException, InterruptedException {StringBuffer sb = new StringBuffer();for (Text friend : values) {sb.append(friend).append(" ");}context.write(key, new Text(sb.toString()));}
}

（6）第二次Driver类

package com.newbies.mapreduce.friends;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class TwoShareFriendsDriver {public static void main(String[] args) throws Exception {// 1 获取job对象Configuration configuration = new Configuration();Job job = Job.getInstance(configuration);// 2 指定jar包运行的路径job.setJarByClass(TwoShareFriendsDriver.class);// 3 指定map/reduce使用的类job.setMapperClass(TwoShareFriendsMapper.class);job.setReducerClass(TwoShareFriendsReducer.class);// 4 指定map输出的数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);// 5 指定最终输出的数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);// 6 指定job的输入原始所在目录FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));// 7 提交boolean result = job.waitForCompletion(true);System.exit(result?0:1);}
}

第8章常见错误及解决方案

1）导包容易出错。尤其Text和CombineTextInputFormat。

2）Mapper中第一个输入的参数必须是LongWritable或者NullWritable，不可以是IntWritable. 报的错误是类型转换异常。

3）java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4)，说明Partition和ReduceTask个数没对上，调整ReduceTask个数。

4）如果分区数不是1，但是reducetask为1，是否执行分区过程。答案是：不执行分区过程。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。

5）在Windows环境编译的jar包导入到Linux环境中运行，

hadoop jar wc.jar com.newbies.mapreduce.wordcount.WordCountDriver /user/newbies/ /user/newbies/output

报如下错误：

Exception in thread "main" java.lang.UnsupportedClassVersionError: com/newbies/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0

原因是Windows环境用的jdk1.7，Linux环境用的jdk1.8。

解决方案：统一jdk版本。

6）缓存pd.txt小文件案例中，报找不到pd.txt文件

原因：大部分为路径书写错误。还有就是要检查pd.txt.txt的问题。还有个别电脑写相对路径找不到pd.txt，可以修改为绝对路径。

7）报类型转换异常。

通常都是在驱动函数中设置Map输出和最终输出时编写错误。

Map输出的key如果没有排序，也会报类型转换异常。

8）集群中运行wc.jar时出现了无法获得输入文件。

原因：WordCount案例的输入文件不能放用HDFS集群的根目录。

9）出现了如下相关异常

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)

at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:609)

at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:977)

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:356)

at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:371)

at org.apache.hadoop.util.Shell.<clinit>(Shell.java:364)

解决方案：拷贝hadoop.dll文件到Windows目录C:\Windows\System32。个别同学电脑还需要修改Hadoop源码。

方案二：创建如下包名，并将NativeIO.java拷贝到该包名下

10）自定义Outputformat时，注意在RecordWirter中的close方法必须关闭流资源。否则输出的文件内容中数据为空。

@Override
public void close(TaskAttemptContext context) throws IOException, InterruptedException {if (newbiesfos != null) {newbiesfos.close();}if (otherfos != null) {otherfos.close();}
}

大数据技术之Hadoop（Hadoop企业优化常见错误及解决方案）相关推荐

基于大数据技术之电视收视率企业项目实战（hadoop+Spark）
基于大数据技术之电视收视率企业项目实战(hadoop+Spark) 网盘地址:https://pan.baidu.com/s/1bEeSB1Y9nmjzctnbJMcBkg 密码:dohg 备用地址( ...
hadoop+Spark实战基于大数据技术之电视收视率企业项目实战
课程简介本课程将通过一个电视收视率项目实战驱动讲解,项目案例是国内的一家广电企业作为非洲国家的一个运营商,以用户收视行为数据作为基础数据,通过对频道和节目的分析,采用多维度统计分析的方法挖掘用户的收 ...
vlookup匹配值不唯一_数据对比、数据查询匹配Vlookup函数3种常见错误及解决方案...
Excel中的Vlookup函数,在大家日常数据处理计算中应用的机会非常多,因为它可以帮助我们完成数据查询匹配.数据对比.但是这个函数在使用的过程中也经常会遇到查询错误的问题.根据实践经验总结,发现主 ...
大数据带来新机遇：如何利用大数据技术优化跨境电商运营？
互联网和电商的不断发展,跨境电商已经成为一种全新的商业模式.然而,跨境电商的运营需要面对很多挑战,如物流.支付.语言文化等.如何利用大数据技术优化跨境电商运营成为一个重要的课题. 一.大数据技术在跨境 ...
数据蒋堂 | 大数据技术的4个E
作者:蒋步星来源:数据蒋堂本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...
大数据技术学习，深度挖掘大数据的现状分析
企业级技术 = 艰苦的工作其实大数据有趣的是它不是直接可以炒作的东西. 能够获得广泛兴趣的产品和服务往往是那些人们可以触摸和感受到的,比如:移动应用,社交网络,可穿戴设备,虚拟现实等. 但大数据,从 ...
大数据技术有哪些应该重点学哪些知识
大数据有很多方向,目前我们口中经常说的大数据的主要就业方向是:大数据研发,大数据分析与挖掘,深度学习,人工智能等方向. 我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正 ...
大数据技术有哪些应该重点学哪些知识
想学习大数据技术,是不是首先要知道大数据技术有哪些呢?这样也好知道自己未来应该往哪个方向发展,应该重点学习哪些知识? 抽象而言,各种大数据技术无外乎分布式存储并行计算.具体体现为各种分布式文件系 ...
盘点最受欢迎的十个开源大数据技术
http://my.csdn.net/my/mycsdn 大数据已然成为当今最热门的技术之一,正呈爆炸式增长.每天来自全球的新项目如雨后春笋般涌现.幸运地是,开源让越来越多的项目可以直接采用大数据技术 ...

大数据技术之Hadoop（Hadoop企业优化常见错误及解决方案）

6.1 MapReduce 跑的慢的原因

6.2 MapReduce优化方法

6.2.1 数据输入

6.2.2 Map阶段

6.2.3 Reduce阶段

6.2.4 I/O传输

6.2.5 数据倾斜问题

6.2.6 常用的调优参数

6.3 HDFS小文件优化方法

6.3.1 HDFS小文件弊端

6.3.2 HDFS小文件解决方案

第7章 MapReduce扩展案例

7.1 倒排索引案例（多job串联）

7.2 TopN案例

7.3 找博客共同好友案例

第8章常见错误及解决方案

大数据技术之Hadoop（Hadoop企业优化常见错误及解决方案）相关推荐

最新文章

热门文章

大数据技术之Hadoop（Hadoop企业优化常见错误及解决方案）

6.1 MapReduce 跑的慢的原因

6.2 MapReduce优化方法

6.2.1 数据输入

6.2.2 Map阶段

6.2.3 Reduce阶段

6.2.4 I/O传输

6.2.5 数据倾斜问题

6.2.6 常用的调优参数

6.3 HDFS小文件优化方法

6.3.1 HDFS小文件弊端

6.3.2 HDFS小文件解决方案

第7章 MapReduce扩展案例

7.1 倒排索引案例（多job串联）

7.2 TopN案例

7.3 找博客共同好友案例

第8章 常见错误及解决方案

大数据技术之Hadoop（Hadoop企业优化常见错误及解决方案）相关推荐

最新文章

热门文章

第8章常见错误及解决方案