hadoop API之:文件操作

@(HADOOP)[hadoop, hadoop2]

  • hadoop API之文件操作

    • 1读取文件
    • 2文件复制
    • 3获取文件属性
    • 4列出某个目录下的文件
    • 5读取sequencefile
    • 6读取HDFS文件

Hadoop提供了大量的API对文件系统中的文件进行操作,主要包括:

(1)读取文件

(2)写文件

(3)读取文件属性

(4)列出文件

(5)删除文件

完整代码见:https://github.com/lujinhong/lujinhong-commons/tree/master/lujinhong-commons-hadoop/src/main/java/com/lujinhong/commons/hadoop/fs

1、读取文件

以下示例中,将hdfs中的一个文件读取出来,并输出到标准输出流中。

package org.jediael.hadoopdemo.fsdemo;import java.io.IOException;
import java.net.URI;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;public class FileSystemDoubleCat {public static void main(String[] args) throws IOException {String fileName = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(fileName), conf);FSDataInputStream in = null;try {in = fs.open(new Path(fileName));IOUtils.copyBytes(in, System.out, 4096, false);in.seek(0);IOUtils.copyBytes(in, System.out, 4096, false);} finally {in.close();}}}

(1)其中FSDataInputStream实现了Seekable接口,可以对文件进行随机定位,但注意,seek()的代价较高,如无必要,尽量少使用。

2、文件复制

package org.jediael.hadoopdemo.fsdemo;import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;public class FileCopy {public static void main(String[] args) throws IOException {String sourceFile = args[0];String destFile = args[1];InputStream in = null;OutputStream out = null;try {//1、准备输入流in = new BufferedInputStream(new FileInputStream(sourceFile));//2、准备输出流Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(destFile), conf);out = fs.create(new Path(destFile));//3、复制IOUtils.copyBytes(in, out, 4096, false);} finally {in.close();out.close();}}}

3、获取文件属性

文件属性以FileStatus对象进行封装,使用FileSystem对象的getFileStatus()方法,可以获取到文件的FileStatus对象。

package org.jediael.hadoopdemo.fsdemo;import java.io.IOException;
import java.net.URI;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;public class FileStatusDemo {public static void main(String[] args) throws IOException {String fileName = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(fileName), conf);//获取FileSystem对象。FileStatus status = fs.getFileStatus(new Path(fileName));System.out.println(status.getOwner()+" "+status.getModificationTime());}}

4、列出某个目录下的文件

使用FileSystem的ListStatus方法,可以获取到某个目录下所有文件的FileStatus对象。

package org.jediael.hadoopdemo.fsdemo;import java.io.IOException;
import java.net.URI;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FileUtil;
import org.apache.hadoop.fs.Path;public class ListStatusDemo {public static void main(String[] args) throws IOException {String dir = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(dir), conf);FileStatus[] stats =  fs.listStatus(new Path(dir));Path[] paths = FileUtil.stat2Paths(stats);for(Path path : paths){System.out.println(path);}}}

递归列出目录下的所有文件(2.0版本以后适用):

//递归列出目录中的所有文件。
public static List<String> getAllHdfsFile(String dir) throws IOException {List<String> fileList = new ArrayList<>();Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(dir), conf);RemoteIterator<LocatedFileStatus> iterator = fs.listFiles(new Path(dir), true);while (iterator.hasNext()) {LocatedFileStatus fileStatus = iterator.next();fileList.add(fileStatus.getPath().toString());}

// for(String file : fileList){
// LOG.debug(file);
// }
return fileList;

}

5、读取sequencefile

package com.lujinhong.commons.hadoop.fs;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.ReflectionUtils;import java.io.IOException;
import java.net.URI;/*** AUTHOR: LUJINHONG* CREATED ON: 17/1/11 11:32* PROJECT NAME: lujinhong-commons* DESCRIPTION:示范如何读取以snappy格式压缩的。虽然没指定压缩格式,但成功解压了。*/
public class SequenceSnappyFileReader {public static void main(String[] args) throws IOException {String uri = args[0];Configuration conf = new Configuration();Path path = new Path(uri);SequenceFile.Reader reader = null;try {SequenceFile.Reader.Option filePath = SequenceFile.Reader.file(path);reader = new SequenceFile.Reader(conf, filePath);Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), conf);Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), conf);//long position = reader.getPosition();while (reader.next(key, value)) {//同步记录的边界//String syncSeen = reader.syncSeen() ? "*" : "";//System.out.printf("[%s%s]\t%s\t%s\n", position, syncSeen, key, value);System.out.println( value);//position = reader.getPosition(); // beginning of next record}} finally {IOUtils.closeStream(reader);}}
}

6、读取HDFS文件

public static void main(String[] args) throws IOException {String fileName = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(fileName), conf);FSDataInputStream hdfsInStream = fs.open(new Path(fileName));String line;BufferedReader in =new BufferedReader(new InputStreamReader(hdfsInStream, "UTF-8"));while ((line = in.readLine()) != null) {}
}

hadoop API之:文件操作相关推荐

  1. Hadoop之HDFS文件操作

    摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件    命令行     Java API HD ...

  2. linux 查看hdfs文件,Hadoop之HDFS文件操作

    摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件    命令行    Java API HDF ...

  3. hadoop的hdfs文件操作实现上传文件到hdfs

    hdfs文件操作操作示例,包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧 复制代码代码如下: import org.apache.hadoop.conf.Conf ...

  4. hadoop api 复制文件_Hadoop发布新组件:分布式对象存储系统Ozone

    大数据 / 人工智能 / 区块链 / 数据库 / 分布式存储 2020年9月,Ozone 1.0.0分布式对象存储系统在Apache Hadoop社区正式发布.据了解,经过2年多的社区持续开发和内部1 ...

  5. Hadoop API编程——FileSystem操作

    基于前面配置的HDFS伪分布式模式进行实验,完全分布式模式下次来搞.. 创建Java项目,File->New->Java Project,命名为TestHDFS 采用单元测试做实验,加入单 ...

  6. hdfs java api 读写文件操作_第十讲:通过JavaAPI对HDFS读写

    上一讲我们通过java api 接口对虚拟机里面的hdfs进行了新建文件夹.下面我们要进行其他的操作: 注,以下的所有内容都是在第九讲的代码的基础上的. 1.删除hdfs上面的文件夹 2.删除dhfs ...

  7. Windows API中文件操作函数的介绍

    1.用CrrateFile函数进行文件的打开和创建 HANDLE CreateFile( LPCTSTR lpFileName, //指向文件名的指针 DWORD dwDesiredAccess, / ...

  8. C# WPF Application 下的文件操作

    好气哦,电脑好烂,每天花大把的时间在等电脑反应上. 没有钱买新电脑,连组台式机的钱都没有.好气哦. 啊啊啊啊文件操作是什么鬼???C++下我都懵了,C#下好多东西要学!!!我不会!我不会!我不会!!! ...

  9. Excel-VBA文件操作

    本文转载自https://blog.csdn.net/threshold1980/article/details/78864240 Excel-VBA操作文件四大方法 在我们日常使用Excel的时候, ...

最新文章

  1. 镜头评价指标及测试方法(三)--------测量原理及3D相机调查
  2. CF396C On Changing Tree
  3. elasticsearch6.2.2安装中文分词插件IK analyzer
  4. html圆角兼容jq,IE兼容css3圆角的htc解决方法
  5. Scala教程之:可扩展的scala
  6. 问题之传递参数名和接收参数名要一致。
  7. 英文期刊催稿信模板_手把手教你写投稿信,另附查尔斯沃思高质量模板
  8. python的变量名有哪些_【python字符串做变量名的方法有哪些?这些方法对python应用很重要】- 环球网校...
  9. 洛谷P5709、P5710、P5711、P5712题题解(Java语言描述)
  10. 无法打开、创建WEB项目,VS2003有寄生性?
  11. 天猫双11倒计时:80000瓶1499元53度飞天茅台将开放限量抢购
  12. c# list排序的三种实现方式
  13. js获取html中div里的标签id_【学废了】HTML初步
  14. 封装ajaxGetJs
  15. 最短路问题_Dijkstra算法
  16. 如何去除 WinRAR 的弹窗广告
  17. 关于WES7的系统还原与恢复
  18. 浏览器的语音识别功能
  19. 慧都科技邀您品鉴“2021重庆高效加工与智能化升级峰会”
  20. 非深圳户口办理《深圳计划生育证明》需要以下几个证件

热门文章

  1. 为什么B+树比B树更适合做数据库索引
  2. HashMap方法源码
  3. Python程序开发——第三章 列表与元组
  4. Web前端开发笔记——第二章 HTML语言 第十一节 语义标签
  5. php判断几维数组的方法,php如何判断数组是几维
  6. python工具栏消失_[Python自学] PyQT5-菜单栏、工具栏、状态栏
  7. oracle 绑定变量模糊查询,求助-ACTIVE DG 异常shutdown
  8. Windows使用msi安装MySQL安装教程
  9. 如何用jsp连接mysql_如何用jsp连接mysql数据库
  10. python cpython关系_第3篇:CPython内部探究:PyASCIIObject的初始化