上一小节我们学习了FileSystem类的基本使用,本小节我们首先来学习使用API来完成文件的上传,要使用javaAPI来上传文件至集群我们需要使用到FSDataInputStream对象。

FSDataInputStream

我们知道在Java中要将数据输出到终端,需要文件输出流,HDFS的JavaAPI中也有类似的对象。
FileSystem类有一系列新建文件的方法,最简单的方法是给准备新建的文件制定一个path对象,然后返回一个用于写入数据的输出流:

public FSDataOutputStream create(Path p)throws IOException

该方法有很多重载方法,允许我们指定是否需要强制覆盖现有文件,文件备份数量,写入文件时所用缓冲区大小,文件块大小以及文件权限。

注意:create()方法能够为需要写入且当前不存在的目录创建父目录,即就算传入的路径是不存在的,该方法也会为你创建一个目录,而不会报错。如果有时候我们并不希望它这么做,可以先用exists()方法先判断目录是否存在。

我们在写入数据的时候经常想要知道当前的进度,API也提供了一个Progressable用于传递回调接口,这样我们就可以很方便的将写入datanode的进度通知给应用了。

package org.apache.hadoop.util;
public interface Progressable{public void progress();
}

接下来我们通过一个例子来体验FSDataOutputStream的用法:

还是一样我们先在本地创建一个文件,以供测试。

接下来编写代码:

运行得到如下结果:

可以看到文件已经成功上传了。

练习

学以致用才能真正掌握知识,编写代码与脚本实现如下功能:

  • /develop/input/目录下创建hello.txt文件,并输入如下数据:
    迢迢牵牛星,皎皎河汉女。
    纤纤擢素手,札札弄机杼。
    终日不成章,泣涕零如雨。
    河汉清且浅,相去复几许?
    盈盈一水间,脉脉不得语。
    《迢迢牵牛星》

  • 使用FSDataOutputStream对象将文件上传至HDFS的/user/tmp/目录下,并打印进度。

删除文件

上传了文件之后,如果我们不想要了,怎么使用java代码删除集群上的文件呢?

使用FileSystemdelete()方法可以永久性删除文件或目录。

为了能查看到删除文件之后的效果我们先来了解下如何使用java代码输出HDFS的文件目录。

列出文件

我们在开发或者维护系统时,经常会需要列出目录的内容,在HDFS的API中就提供了listStatus()方法来实现该功能。

public FileStatus[] listStatus(Path f)throws IOException
public FileStatus[] listStatus(Path f,PathFilter filter)throws IOException
public FileStatus listStatus(Path[] files)throws IOException
public FileStatus() listStatus(Path[] files,PathFilter filter)throws IOException

当传入参数是一个文件时,他会简单的转变成以数组方式返回长度为1的FileStatus对象,当传入参数是一个目录时,则返回0或多个FileStatus对象,表示此目录中包含的文件和目录。

接下来通过一个例子,来体验一下listStatus()方法的使用:

在命令行启动hadoop,编写代码,运行可以看到如下结果。

显示了hdfs根目录下的文件夹与user目录下的文件夹。

删除文件

使用FileSystemdelete()方法可以永久性删除文件或目录。

public boolean delete(Path f,boolean recursive)throws IOException

如果f是一个文件或者空目录,那么recursive的值可以忽略,当recursize的值为true,并且p是一个非空目录时,非空目录及其内容才会被删除(否则将会抛出IOException异常)。

接下来我们通过一个例子,来查看该方法如何使用。

编写代码,点击评测,可以看到如下结果:

可以看到/user/hadoop/目录已经被删除了。

练习

先创建对应目录,然后使用java代码实现如下功能:

  • 删除HDFS的/user/hadoop/目录(空目录);
  • 删除HDFS的/tmp/test/目录(非空目录);
  • 列出HDFS根目录下所有的文件和文件夹;
  • 列出HDFS下/tmp/的所有文件和文件夹。

Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)相关推荐

  1. 《黑马程序员2023新版黑马程序员大数据入门到实战教程,大数据开发必会的Hadoop、Hive,云平台实战项目》学习笔记总目录

    本文是对<黑马程序员新版大数据入门到实战教程>所有知识点的笔记进行总结分类. 学习视频:黑马程序员新版大数据 学习时总结的学习笔记以及思维导图会在后续更新,请敬请期待. 前言:配置三台虚拟 ...

  2. 黑马2023新版《大数据入门到实战》教程上线啦~

    划重点!划重点!划重点! 2023新版<大数据入门到实战>教程 上线了!!! 本套教程一网打尽了大数据必学的 Hadoop.Hive,云平台实战项目 让零基础同学一站式入门 直通大数据核心 ...

  3. 【大数据入门笔记系列】第一节 大数据常用组件

    [大数据入门笔记系列]第一节 大数据常用组件 大数据释义 大数据组件 跳转 大数据释义 近些年来,坊间一直流传着这样的言论:"大数据时代,人人都在裸奔".对于外行人来说,对于&qu ...

  4. 【大数据入门笔记系列】第三节 Hdfs读、写数据处理流程

    [大数据入门笔记系列]第三节 Hdfs读.写数据处理流程 Hdfs简介 写数据处理流程 读数据处理流程 后记 跳转 Hdfs简介 一般而言,Hdfs是由一个NameNode节点和若干个DataNode ...

  5. 打怪升级之小白的大数据之旅(四十六)<HDFS各模块的原理>

    打怪升级之小白的大数据之旅(四十六) HDFS各模块的原理 上次回顾 上一章,我们学习了HDFS的基本知识以及一些常用的操作,本章,我们对HDFS各模块的原理进行讲解,了解清楚这些,可以更好的辅助我们 ...

  6. Hadoop大数据入门

    1.服务器架构的演变 以往的服务器架构一般是单体架构: 特点:将软件集中安装在一台服务器上 优势:简单.方便.成本低 缺点:单个服务器硬件资源有限,服务应用集中在单体服务器上,每个应用分到的硬件资源有 ...

  7. spark 简单实战_大数据入门与实战-Spark上手

    1 Spark简介 1.1 引言 行业正在广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益 ...

  8. 【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作流程

    [大数据入门笔记系列]第六节 分布式计算框架MapReduce的工作流程 前言 MapReduce分布式运算 MapReduceApplication MapTask ReduceTask split ...

  9. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

最新文章

  1. 用python画猪_用python画小猪票佩奇
  2. 配置错误:不能在此路径中使用此配置节。如果在父级别上锁定了该节,便会出现这种情况。锁定是默认设置的...
  3. 【iOS 开发】iOS 开发 简介 (IOS项目文件 | MVC 模式 | 事件响应机制 | Storyboard 控制界面 | 代码控制界面 | Retina 屏幕图片适配)
  4. 粒子系统模拟-计算机图形学 豆瓣,基于粒子系统的瀑布模拟与实现
  5. 艺术美的价值是什么?
  6. win10专业版开机画面模糊_Win10系统登录背景变模糊的两种恢复方法
  7. JVM Specification 9th Edition (4) Chapter 3. Compiling for the Java Virtual Machine
  8. 推荐一本好书《应用框架的设计与实现 .NET平台》电子工业出版社
  9. 微信小程序4-小程序的api
  10. 代码实现抖音时钟罗盘
  11. 如何破解有密码的PDF文档(无需下载破解软件)
  12. 各种浏览器UserAgent一览表(桌面+移动)
  13. 谈EBOM 、PBOM 、MBOM 在PDM中的统一
  14. 让MAC在TouchBar显示网速
  15. 马哥教育开学感想随笔
  16. cad计算机中怎么用除号,CAD中特殊符号如何输入?超全教程,一看就懂!
  17. 【spring_Cloud】java.lang.IllegalStateException: Failed to introspect Class [org.springframework.cloud
  18. 字节vs快手!取消大小周之战
  19. 常见的电脑屏幕分辨率统计
  20. 建筑物高度数据的获取

热门文章

  1. oracle使用小技巧,Oracle在linux下使用小技巧
  2. RenderMonkey基本使用方法【转】
  3. 2017年中国软件业务收入报告新鲜出炉,华为以2178亿元连续16年蝉联榜首
  4. 2021-2022上学期 奖状的清单
  5. java foreach循环语句_Javaforeach语句
  6. 两个cgi的莫名其妙的core dump问题的解决
  7. “次世代”游戏建模技术真的那么火吗?那容易学会吗?如何去学?
  8. Android仿朋友圈照片定点放大和滑动查看(未完待续)
  9. 通过three.js实现3d模型展示
  10. 使用NPOI导出Excel模板