MultipleOutputFormat和MultipleOutputs

http://www.cnblogs.com/liangzh/archive/2012/05/22/2512264.html

一,介绍

1,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.MultipleOutputs

MultipleOutputFormat allowing to write the output data to different output files.

MultipleOutputs creates multiple OutputCollectors. Each OutputCollector can have its own OutputFormat and types for the key/value pair. Your MapReduce program will decide what to output to each OutputCollector.

2,新API中  org.apache.hadoop.mapreduce.lib.output.MultipleOutputs

整合了上面旧API两个的功能,没有了MultipleOutputFormat。

  The MultipleOutputs class simplifies writing output data to multiple outputs

  Case one: writing to additional outputs other than the job default output. Each additional output, or named output, may be configured with its own             OutputFormat, with its own key class and with its own value class.

  Case two: to write data to different files provided by user

下面这段话来自Hadoop:The.Definitive.Guide(3rd,Early.Release)P251

  “In the old MapReduce API there are two classes for producing multiple outputs: MultipleOutputFormat and MultipleOutputs. In a nutshell, MultipleOutputs is more fully featured, but MultipleOutputFormat has more control over the output directory structure and file naming. MultipleOutputs in the new API combines the best features of the two multiple output classes in the old API.”

二,应用

1,输出到多个文件或多个文件夹:

  驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码

  private MultipleOutputs<Text,IntWritable> mos;
  public void setup(Context context) throws IOException,InterruptedException {
    mos = new MultipleOutputs(context);
  }
  public void cleanup(Context context) throws IOException,InterruptedException {
    mos.close();
  }
  然后就可以用mos.write(Key key,Value value,String baseOutputPath)代替context.write(key, value);
  在MapClass或Reduce中使用,输出时也会有默认的文件part-m-00*或part-r-00*,不过这些文件是无内容的,大小为0. 而且只有part-m-00*会传给Reduce。

2,以多种格式输出:

public class TestwithMultipleOutputs extends Configured implements Tool {

  public static class MapClass extends Mapper<LongWritable,Text,Text,IntWritable> {

    private MultipleOutputs<Text,IntWritable> mos;

    protected void setup(Context context) throws IOException,InterruptedException {
      mos = new MultipleOutputs<Text,IntWritable>(context);
    }

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
      String line = value.toString();
      String[] tokens = line.split("-");

      mos.write("MOSInt",new Text(tokens[0]), new IntWritable(Integer.parseInt(tokens[1])));  //(第一处)
      mos.write("MOSText", new Text(tokens[0]),tokens[2]);     //(第二处)
      mos.write("MOSText", new Text(tokens[0]),line,tokens[0]+"/");  //(第三处)同时也可写到指定的文件或文件夹中
    }

    protected void cleanup(Context context) throws IOException,InterruptedException {
      mos.close();
    }

  }
  public int run(String[] args) throws Exception {

    Configuration conf = getConf();

    Job job = new Job(conf,"word count with MultipleOutputs");

    job.setJarByClass(TestwithMultipleOutputs.class);

    Path in = new Path(args[0]);
    Path out = new Path(args[1]);

    FileInputFormat.setInputPaths(job, in);
    FileOutputFormat.setOutputPath(job, out);

    job.setMapperClass(MapClass.class);
    job.setNumReduceTasks(0);  

    MultipleOutputs.addNamedOutput(job,"MOSInt",TextOutputFormat.class,Text.class,IntWritable.class);
    MultipleOutputs.addNamedOutput(job,"MOSText",TextOutputFormat.class,Text.class,Text.class);

    System.exit(job.waitForCompletion(true)?0:1);
    return 0;
  }

  public static void main(String[] args) throws Exception {

    int res = ToolRunner.run(new Configuration(), new TestwithMultipleOutputs(), args);
    System.exit(res); 
  }

}

测试的数据:

abc-1232-hdf
abc-123-rtd
ioj-234-grjth
ntg-653-sdgfvd
kju-876-btyun
bhm-530-bhyt
hfter-45642-bhgf
bgrfg-8956-fmgh
jnhdf-8734-adfbgf
ntg-68763-nfhsdf
ntg-98634-dehuy
hfter-84567-drhuk

结果截图:(结果输出到/test/testMOSout)

遇到的一个问题:

  如果没有mos.close(), 程序运行中会出现异常:

  12/05/21 20:12:47 WARN hdfs.DFSClient: DataStreamer Exception:

  org.apache.hadoop.ipc.RemoteException:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on
  /test/mosreduce/_temporary/_attempt_local_0001_r_000000_0/h-r-00000 File does not exist. [Lease. Holder: DFSClient_-352105532, pendingcreates: 5]

分类: 

转载于:https://www.cnblogs.com/luolizhi/p/4927436.html

(转)MultipleOutputFormat和MultipleOutputs相关推荐

  1. mapreduce多目录输出(MultipleOutputFormat和MultipleOutputs)

    一,介绍 1,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.Multipl ...

  2. 【hadoop】MultipleOutputFormat和MultipleOutputs

    一,介绍 1,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.Multipl ...

  3. MultipleOutputFormat和MultipleOutputs

    文章出处:http://www.cnblogs.com/liangzh/archive/2012/05/22/2512264.html MultipleOutputFormat和MultipleOut ...

  4. MultipleOutputs(三)

    一,介绍 1,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.Multipl ...

  5. MapReduce入门

    说明 MapReduce是一种分布式计算模型,解决海量数据的计算问题,主要有Map和Reduce组成 用户使用时需要实现map()和reduce()两个函数,两个函数的形参都是key/value键值对 ...

  6. MapReduce中的自定义多目录/文件名输出HDFS

    转载自 http://my.oschina.net/leejun2005/blog/94706 最近考虑到这样一个需求: 需要把原始的日志文件用hadoop做清洗后,按业务线输出到不同的目录下去,以供 ...

  7. MapReduce中的自定义多目录/文件名输出转

    最近考虑到这样一个需求: 需要把原始的日志文件用hadoop做清洗后,按业务线输出到不同的目录下去,以供不同的部门业务线使用. 这个需求需要用到MultipleOutputFormat和Multipl ...

  8. Hadoop---(2)MapReduce(分布式计算编程模型)

    2. MapReduce MapReduce:是一种分布式计算编程模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:MapReduce,用户只需要实现map() ...

  9. Hadoop详解(三)——MapReduce原理和执行过程,远程Debug,Writable序列化接口,MapReduce程序编写

    MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和Re ...

最新文章

  1. 《LeetCode力扣练习》第10题 C语言版 (做出来就行,别问我效率。。。。)
  2. java免安装工具包_Java1.8安装及环境变量配置
  3. linux启动keepalived服务,keepalived的原理及安装应用
  4. SAP Spartacus breakpoint的决定逻辑
  5. java 更改css_CSS样式更改——文本Content
  6. MySQL 查询速度慢与性能差的原因与解决方法
  7. 任老爷子退休以后,华为谁最有可能接手,为什么?
  8. 基于catia活塞的有限元分析_渐开线插齿刀自动化设计系统及有限元分析
  9. navicat循环执行上下两行相减sql语句_十步完全理解SQL,小白也可以做到!
  10. Excel快捷键大全之功能键合集
  11. SRE岗位理解(上篇)—读SRE实战手册有感
  12. 专业思维导图软件 Mindjet MindManager 2021下载
  13. java mp3合并_java合并MP3文件
  14. 手机RAM、ROM和储存卡的那些事
  15. 使用docker 搭建 ceph 开发环境,使用aws sdk 存储数据
  16. js的json php无法json_decode,PHP中遇到BOM、 编码导致json_decode函数无法解析问题
  17. (修订)斩获腾讯微信后台开发offer大神的近1.5W字的面试干货分享
  18. Frida学习之旅(一)--Google Pixel手机的ROOT
  19. 图片转excel的网站
  20. 安装或者初始化达梦数据库卡死

热门文章

  1. 博士申请 | 香港大学倪卓娴教授招收物联网与机器学习方向全奖博士生
  2. feign post 传递空值_别跟我说你真的知道 post 和 get 的本质区别?!!
  3. css动画实现跳动的小人
  4. 读写锁ReentrantReadWriteLock源码分析
  5. CF76A·gift
  6. ueditor 配置window.UEDITOR_HOME_URL路径不起作用,提示引用不到该路径,引用的确是另一个项目路径
  7. Mac系统环境变量配置和说明【实用版】
  8. 初中计算机函数的使用教案,第五课 数据计算——公式和函数
  9. 【研究】周耀旗写好英语科技论文的诀窍
  10. 转主流蓝牙BLE控制芯片详解(1):TI CC2540