Hadoop——HDFS（2）

文章目录

一、文件块大小
二、HDFS的读写流程
三：HDFS的Shell操作
- 上传相关操作：
- 下载相关操作：
- HDFS直接操作：

一、文件块大小

在企业中，一般中小公司：128M，大公司：256M

思考：为什么块的大小不能设置太小，也不能设置太大？1：HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；
2：HDFS的块设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致 程序在处理这块数据时，会非常慢总结：HDFS块的大小设置主要取决于磁盘传输速率

二、HDFS的读写流程

1：客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址
2：挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据
3：DataNode开始传输数据给客户端（从磁盘里读取数据输入流，以Packet为单位来做校验）
4：客户端以Packet为单位接收，现在本地缓存，然后写入目标文件。

1：客户端通过DistributeFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否存在，父目录是否存在
2：NameNode方式是否可以上传
3：客户端请求第一个Block上传到哪几个DataNode服务器上
4：NameNode返回3个DataNode结点，分别为dn1、dn2、dn3
5：客户端通过FSDataOuputStream模块请求dn1上传数据，dn1收到请求后会继续调用dn2，然后dn2调用dn3，讲这个通信管道建立完成
6：dn1、dn2、dn3逐级应答客户端
7：客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8：当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器

三：HDFS的Shell操作

基本语法：

hadoop fs 具体命令 或者 hdfs dfs 具体命令 两者等价

上传相关操作：

1）-moveFromLocal：从本地剪切粘贴到HDFS

hadoop fs -moveFromLocal 文件地址 HDFS地址

2）-copyFromLocal：从本地文件系统中拷贝文件到HDFS

hadoop fs -copyFromLocal 文件地址 HDFS地址

3）-put：等同于copyFromLocal

hadoop fs -put 文件地址 HDFS地址

4）-appendToFile：追加一个文件到已经存在的文件末尾

hadoop fs -appendToFile 文件地址 HDFS文件的地址

下载相关操作：

1）-copyToLocal：从HDFS拷贝到本地

hadoop fs -copyToLocal HDFS文件的地址 本地文件地址

2）-get：等同于copyToLocal

hadoop fs -get HDFS文件的地址 本地文件地址

HDFS直接操作：

1）-ls：显示目录信息

2）-cat：显示文件内容

3）-chagrp、chmod、-chown：同Linxu文件系统用法一样，修改文件所属组、权限

4）-mkdir：创建路径

5）-cp：从HDFS的一个路径拷贝到HDFS的另一个路径

6）-mv：在HDFS目录中移动文件

7）-tail：显示一个文件的末尾1kb的数据

8）-rm：删除文件或文件夹

9）-rm -r：递归删除目录及目录里面的内容

10）-du（-s -h）：统计文件夹的大小信息

11）-setrep：设置HDFS中文件的副本数量

数据