摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

HDFS(Hadoop分布式文件系统)是Apache Hadoop项目的一个子项目。

HDFS支持海量数据的存储,允许用户把成百上千的计算机组成存储集群,其中的每一台计算机称为一个节点。用户通过HDFS的终端命令可以操作其中的文件和目录,如同操作本地文件系统(如Linux)中的文件一样。用户也可以通过HDFS API或MapReduce来编程访问其中的文件数据。

本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

1. HDFS的架构和元数据

1.1 HDFS采用master/slaves主从结构模型管理数据,结构模型图如下

1.2 元数据的相关概念

Fsimage:文件系统映射文件,也是元数据的镜像文件(磁盘中),存储某段时间namenode内存元数据信息

Edits log:操作日志文件

1.3 元数据的工作特点

  • (1) namenode始终在内存中存储元数据,使得“读操作”更加快
  • (2)写请求时,向edits文件写入日志,成功返回后才修改内存,并向客户端返回
  • (3) NameNode内存中存储的是=fsimage+edits

2. 文件的读写流程

2.1 文件的读取流程

1) 客户端Client调用FileSystem的open(),返回FSDataInputStream对象给客户端.DistributeFileSystem对象通过RPC和NameNode通信,查询元数据信息,确定文件路径是否存在以及检查权限,返回这个文件的数据块位置列表(数据块位置是有先后顺序)

2) 客户通过FSDataInputStream read()方法读取数据.FSDataInputStream对象按照数据块位置优先顺序建立一条连接,读取数据.当此数据块读取完毕后,FSDataInputStream对象关闭和此数据节点的连接,然后继续按照优先顺序建立下一个数据块连接,读取数据…….在据读取过程中,如果客户端在与数据节点通信时出现错误,则会尝试读取包含有此数据块的下一个数据节点,并且失败的数据节点会被记录,以后不会再连接

3) 当数据读取完毕后,调用FSDataInputStream对象的close()函数。

2.2 文件的写入流程

1)客户端Client调用FileSystem的create()函数,返回FSDataOutputStream对象给客户端DistributedFileSystem对象通过RPC与namenode通信,确定文件存在不存在以及是否有创建文件的权限,先将操作写入log,再载入内存,将DataNode列表返回

2) 客户端通过FSDataOutputStream对象,写数据.FSDataOutputStream对象将数据按照128M分成块,写入Data Queue.然后将DataNode列表和Data Queue通过DataNode列表一同发送给最近的DataNode.这样之后client端和NameNode分配的多个DataNode构成pipeline管道.client每次向第一个DataNode写入一个packet,这个packet便会直接在pipeline里传给第二个、第三个DataNode.每个DataNode写完一个块后,会返回确认信息. FSDataoutputStream将确认信息保存在ACK Queue.所有的数据块写入pipeline中的数据节点,并且ACK Queue成功返回.

3) FSDataOutputStream对象close()方法关闭流.通知元数据节点写入完毕

3. 基于华为云MRS windows下读写HDFS的实现

3.1 创建2.1.0非安全集群

3.2 安全组规则入方向放开windows 客户端ip和所有端口

3.3 为集群的各个节点绑定弹性ip

3.4 将弹性ip和集群节点主机名写入windows的hosts文件

3.5 打开https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-2.1,将样例代码下载下来,然后是idea打开hdfs-examples项目

3.6 在huawei下面创建test文件夹,并且Test.java文件放到这个文件夹内

3.7 从集群下载配置文件,置于项目conf文件夹下

3.8 将下面配置配置于hdfs-site.xml中

<property><name>dfs.client.use.datanode.hostname</name><value>true</value>
</property>

3.9 idea执行程序,执行结果如下

附件下载:

Test.rar 1.06KB

文档.docx 455.30KB

本文分享自华为云社区《HDFS读写原理和代码简单实现》,原文作者:剑指南天 。

点击关注,第一时间了解华为云新鲜技术~

新来的运维这样用HDFS,CIO都懵了···相关推荐

  1. YMatrix 5.0 故障自动转移功能新实现,运维更方便!

    前言 分布式数据库一般都实现了数据多副本的存储以保证数据的高可用性.在多副本存储的基础上,通过切换活跃的存储副本来实现故障转移,是常见的做法. YMatrix 5.0 实现了在数据库集群所有数据分片上 ...

  2. 运维工作中,你都有哪些技巧

    很多人都说运维工作是苦逼的,不可否认,有时候我也这样觉的,但回头想想,又有那份工作不辛苦呢,看看那些在叙利亚前线的记者,在马路上的清洁工,在饭店不停颠勺的厨师,在理发店里两只胳膊永远呆在空中的理发师, ...

  3. 史上最全的sqlserver运维分析工具,汇总都在这里了,适合sqlserver的dba人员

    比较常用的sqlserver运维分析语句 SELECT TOP 2000 ST.text AS '执行的SQL语句',QS.execution_count AS '执行次数',QS.total_ela ...

  4. 新概念机房运维监控三大新理念

    为了改变传统机房环境监控的现状,需要引入三大新理念加以改善. 1.对设备内部进行监控 机房监控的目的在于保护机房内IT系统的正常.有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给 ...

  5. 服务器机房运维监控,新概念机房运维监控三大新理念

    为了改变传统机房环境监控的现状,需要引入三大新理念加以改善. 1.对设备内部进行监控 机房监控的目的在于保护机房内IT系统的正常.有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给 ...

  6. 框架下cookie的使用_为什么自动化运维系统越来越多使用都RESTful API?

    Flask是轻量级.易于采用.文档化和流行的开发RESTful API的非常好的选择,也是笔者在工作中最常用的Flask Web框架之一.从根本上说,Flask是建立在可扩展性和简单性的基础之上的.F ...

  7. 智能运维案例系列 | 新网银行 X 袋鼠云:银行核心业务系统日志监控平台建设实践...

    在聊今天的案例之前,我想首先和大家聊聊当前最热的词汇之一:"数据驱动". 双11就要到了,当你打开手淘页面,你会收到平台推荐给你的优惠活动信息,你可能感兴趣的商家或者商品, 你随意 ...

  8. 2019年超新超全的大数据运维技能图谱

    运维是一个融合多学科(网络.系统.开发.安全.应用架构.存储等)的综合性技术岗位,从最初的网络管理(网管)发展到现在的系统运维工程师.网络运维工程师.安全运维工程师.运维开发工程师等,可以看出,运维的 ...

  9. 最“全”新零售运维保障解决方案——阿里巴巴GOC技术实践经验独家曝光

    在过去半年中,作为新零售的典型代表--盒马鲜生飞速发展,比如: 2017年9月,盒马鲜生五城十店同开,"盒区房"成为新零售行业新名词: 2017年10月,盒马鲜生上线SOS服务,实 ...

最新文章

  1. Table doesn't have a primary key
  2. 【margin和padding的区别】
  3. opencv jni Android 实例笔记
  4. 数据库优化:Mysql慢查询的定位和分析
  5. 谷歌警告:安卓再现高危漏洞 华为小米等可能被黑客完全控制
  6. 神经网络贷款风险评估(base on keras and python ) 原创 2017年08月18日 14:35:17 标签: python / 神经网络 / keras 300 用我
  7. Java 8 - 收集器Collectors_分区partitioningBy
  8. linux环境部署常用命令
  9. Java类名与包名不区分大小写
  10. sql server 2005 使用Log Explorer查看和恢复数据
  11. 全国计算机三级网络技术题库南开,计算机三级上机-适用于三级网络技术数据库等(南开100题).doc...
  12. PR值与网站权重的关系
  13. 019ssm高校校园门户管理系统高校门户网站社团管理系统
  14. Airtest双11领喵币代码
  15. 制作简单的视频壁纸程序,C语言可完成
  16. 离散数学 08.02 格的定义
  17. Linux积累 - scp 远程复制 加端口
  18. rpc--sekiro框架
  19. .Android手机邮箱设置详细教程
  20. go_viper解析

热门文章

  1. HTML placeholder
  2. Bootstrap CSS编码规范之代码组织规范
  3. ROS笔记(24) Amcl
  4. mysql operator_mysql-operator容器化部署mysql8
  5. day21—AngularJS学习初体验
  6. NPOI 导出Excel 数据方式
  7. [转载] Bitmap的秘密
  8. 【Trie】[CQOI2016]路由表
  9. 水晶报表横向打印BUG处理
  10. 小谈EasyUI中的tree用法