Hadoop 2.x的DistributedCache无法工作的问题

转自：http://www.codelast.com/?p=8131

现象：和这个帖子描述的一样，简单说来就是，在Hadoop 2.x上，用新的DistributedCache的API，在mapper中会获取不到这个cache文件。
下面就详细地描述一下新旧API的用法区别以及解决办法。

『1』旧API
将HDFS文件添加到distributed cache中：

1 2	`Configuration conf = job.getConfiguration();` `DistributedCache.addCacheFile(new` `URI(inputFileOnHDFS), conf);` `// add file to distributed cache`

其中，inputFileOnHDFS是一个HDFS文件的路径，也就是你要用作distribute cache的文件的路径，例如 /user/codelast/123.txt
在mapper的setup()方法中：

Configuration conf = context.getConfiguration();

Path[] localCacheFiles = DistributedCache.getLocalCacheFiles(conf);

readCacheFile(localCacheFiles[0]);

其中，readCacheFile()是我们自己的读取cache文件的方法，可能是这样做的（仅举个例子）：

private static void readCacheFile(Path cacheFilePath) throws IOException {

BufferedReader reader = new BufferedReader(new FileReader(cacheFilePath.toUri().getPath()));

String line;

while ((line = reader.readLine()) != null) {

//TODO: your code here

}

reader.close();

}

文章来源：http://www.codelast.com/
『2』新API
上面的代码中，addCacheFile() 方法和 getLocalCacheFiles() 都已经被Hadoop 2.x标记为 @Deprecated 了。
因此，有一套新的API来实现同样的功能，这个链接里有示例，我在这里再详细地写一下。
将HDFS文件添加到distributed cache中：

1	`job.addCacheFile(new` `Path(inputFileOnHDFS).toUri());`

在mapper的setup()方法中：

Configuration conf = context.getConfiguration();

URI[] localCacheFiles = context.getCacheFiles();

readCacheFile(localCacheFiles[0]);

其中，readCacheFile()是我们自己的读取cache文件的方法，可能是这样做的（仅举个例子）：

private static void readCacheFile(URI cacheFileURI) throws IOException {

BufferedReader reader = new BufferedReader(new FileReader(cacheFileURI.getPath()));

String line;

while ((line = reader.readLine()) != null) {

//TODO: your code here

}

reader.close();

}

但是就像文章开头的那个链接里所描述的问题一样，你可能会发现 context.getCacheFiles() 总是返回null，也就是你无法读到cache文件。
这个问题有可能是这个bug造成的，你可以对比一下你的Hadoop版本。
文章来源：http://www.codelast.com/
『3』解决办法
（1）打patch
（2）升级Hadoop版本
（3）使用旧的DistributedCache API，经测试OK
文章来源：http://www.codelast.com/

上一篇: [原创] 去除流氓插件“微度标签页”内置的“亿起发”返利链接跳转
下一篇: [原创] 再谈共轭方向法/Conjugate Direction Method In Optimization

Hadoop 2.x的DistributedCache无法工作的问题相关推荐

hadoop put命令的格式_工作中需熟练掌握的Hadoop命令
作者信息 Elesdspline 目前从事NLP与知识图谱相关工作. 工作中需熟练掌握的Hadoop命令导读工作中经常要用到一些Hadoop命令,这里简单列举一下,熟悉基本的命令操作,工作效率事半 ...
大数据之-Hadoop之HDFS_NameNode和Secondary NameNode工作机制_通过文件的增删改查说明---大数据之hadoop工作笔记0070
然后我们再来说一下,hadoop的集群中的namenode节点的工作原理. 1.我们先来大体的了解一下,如果有客户端要来上传文件,这个过程,会先访问namenode,给namenode节点发送请求 2 ...
Hadoop MapReduce八大步骤以及Yarn工作原理详解
Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapR ...
lvs，dhcp，dns，lnmp，lamp，zabbix，nagios，hadoop，openstack，rsync等工作原理
一.客户端获取DHCP的过程 1.客服端通过广播发送 DHCPdiscovery包,寻找DHCP服务器数据包源IP:0.0.0.0 目的地址:255.255.255.0 无响应:等待1秒 ...
【hadoop】NameNode和SceondaryNameNode的工作机制
一. 为什么会存在这样的工作机制? 1.NameNode中的元数据是存储在哪里的? (1)若是存储在NN节点的磁盘中,因为经常需要进行随机访问,或者是不断的被访问,还有要响应客户请求,效率必然很低,所 ...
Hadoop 1.x：体系结构，主要组件以及HDFS和MapReduce的工作方式
Before reading this post, please go through my previous post at "Introduction to Hadoop" t ...
Apache Hadoop 2.9.2文档中文译文 -------未完！！！！！！
目录一. General(概括) 1. Overview 2. Single Node Setup 3. Cluster Setup 4. Commands Reference 5. FileSys ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Hadoop对Spark：正面比拼报告（架构、性能、成本、安全性和机器学习）
来自:网络大数据每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Hadoop和Spark是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据 ...

Hadoop 2.x的DistributedCache无法工作的问题

Hadoop 2.x的DistributedCache无法工作的问题相关推荐

最新文章

热门文章