作者:尼廷·兰詹(Nitin Ranjan)

翻译:陈之炎

校对:王威力

本文约1500字,建议阅读5分钟。

在本文中,大数据专家将为您介绍如何使用HDFS以及如何利用HDFS创建HDFS集群节点。

我们将从HDFS、Zookeeper、Hbase和OpenTSDB上的系列博客开始,了解如何利用这些服务设置OpenTSDB集群。在本文中,我们将探究HDFS。

HDFS

Hadoop分布式文件系统(HDFS)是一种基于Java的分布式文件系统,它具有容错性、可伸缩性和易扩展性等优点,它可在商用硬件上运行,也可以在低成本的硬件上进行部署。HDFS是一个分布式存储的Hadoop应用程序,它提供了更易访问数据的接口。

架构

HDFS架构包含一个NameNode、DataNode和备用NameNode。

HDFS具有主/从架构。

NameNode:HDFS集群包含单个NameNode(主服务器),它管理文件系统命名空间并控制客户端对文件的访问权限。它维护和管理文件系统元数据;例如由哪些块构成文件,以及存储这些块的数据节点。

DataNode:可以有多个DataNode,通常是集群中每个节点有一个DataNode,它负责管理运行节点的存储访问。HDFS中的DataNode存储实际数据,可以添加更多的DataNode来增加可用空间。

备用NameNode :备用NameNode服务并非真正的备用NameNode,尽管名称是称为备用NameNode。具体来说,它并不为NameNode提供高可用性(HA)。

为什么需要备用NameNode?

备用NameNode记录文件系统的修改痕迹,追加到本机文件系统文件的后面,作为修改日志。

  • 启动备用NameNode时,它会从映像文件fsimage中读取HDFS状态,然后启用“编辑日志文件”对它进行编辑。

  • 然后将新的HDFS状态写入fsimage,并使用“空编辑文件”启动正常操作。

  • 由于NameNode只在启动时合并fsimage和编辑文件,所以在繁忙的集群中,随着时间的推移,“编辑日志文件”会变得非常大。

  • 大“编辑日志文件”的另一个副作用是:在下次重新启动NameNode时,需要花费更长的时间。

  • 备用NameNode定期合并fsimage和“编辑日志文件”,并将“编辑日志文件”的大小保持在限定范围内。

  • 备用NameNode通常在与主NameNode不同的计算机上运行,因为它的内存要求与主NameNode的相同。

关键特征


容错:为了防止机器故障,可跨多个DataNode复制容错数据,复制因子的默认值是3(如果有3个DataNode,每个块至少存储在三台计算机上)。

可伸缩性- DataNode之间可实现直接数据传输,所以读/写次数应与DataNode的数量相匹配。

空间-需要更多的磁盘空间?只需添加更多DataNodes和再平衡。

行业标准-其他分布式应用程序均构建在HDFS之上(HBASE,Map-Reduction)。

HDFS是用来处理大数据集的,它具有write-once-read-many(一次写-多次读)的语义,不适合低延迟访问。

数据结构

  • 写入HDFS的每个文件被分割为64MB或128MB大小的数据块。

  • 每个块存储在一个或多个节点上。

  • 块的每个副本均称为副本。

分块安置策略


  • 第一副本放在本地节点上。

  • 第二副本放在不同的机架上。

  • 第三副本与第二副本放置在同一机架中。


设置HDFS集群

要创建HDFS集群,会用到Docker。有关Docker映像的详细信息,请参见:

https://hub.docker.com/u/uhopper/

步骤

  • 创建一个Docker群网络。

查看Gist上的代码。

链接:https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

NameNode

在VM1中为NameNode创建环境变量文件(namenode_env)。

查看Gist上的代码。

链接:

https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

在VM1上创建NameNode:

查看Gist上的代码。

链接:

https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

  • 在所有3个VM中为DataNode创建环境变量文件(datanode_env)。

查看Gist上的代码。

链接:

https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

在VM1上创建DataNode1:

查看Gist上的代码。

链接:

https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

  • 在VM2上创建DataNode 2:

查看Gist上的代码。

链接:

https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

  • 在VM 3上创建DataNode 3。

查看Gist上的代码。

链接:

https://gist.github.com/NitinRanjan/58427ee62d3575f85b3c4f22cdae47cb

在所有vms中,通过执行docker ps检查所有容器是否已启动并正常运行。

一旦所有容器均已启动并运行,请转到VM1,打开浏览器,打开http://localhost:50070/dfshealth.html#tab-datanode.将会看到如下输出:

HDFS CLI


在本文中,我们研究了HDFS以及如何创建3个节点HDFS集群。在下一篇文章中,我们将关注Zookeeper,并创建一个Zookeeper集群。

参考文献:

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

https://docs.docker.com/network/network-tutorial-overlay/#walkthrough

https://hub.docker.com/u/uhopper/

本文首次在Generic Class博客上发表。

原文标题:

An Introduction to HDFS

原文链接:

https://dzone.com/articles/an-introduction-to-hdfs

编辑:王菁

校对:洪淑越

译者简介

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 带你认识HDFS和如何创建3个节点HDFS集群(附代码案例)相关推荐

  1. docker镜像创建redis5.0.3容器集群

    拉取redis5.0.3镜像 # docker pull daocloud.io/library/redis:5.0.3 [root@localhost ~]# docker pull daoclou ...

  2. 如何在Ubuntu 18.04上创建多节点MySQL集群

    翻译转载:https://www.digitalocean.com/community/tutorials/how-to-create-a-multi-node-mysql-cluster-on-ub ...

  3. 如何在Ubuntu 16.04上创建多节点MySQL集群(MySQL-Cluster)

    翻译转载:https://www.digitalocean.com/community/tutorials/how-to-create-a-multi-node-mysql-cluster-on-ub ...

  4. 实战weblogic集群之创建节点和集群

    一.启动weblogic,访问控制台 weblogic的domain创建完成后,接下来就可以启动它,步骤如下: $ cd /app/sinova/domains/base_domain/bin $ . ...

  5. EMQX Operator 如何快速创建弹性伸缩的 MQTT 集群

    引言:拥抱云原生的 EMQX 5.0 云原生理念逐渐深入到各企业关键业务的应用开发中.对于一个云原生应用来说,水平扩展和弹性集群是其应具备的重要特性. 作为积极拥抱云原生的大规模分布式开源物联网 MQ ...

  6. HDFS(下):NameNode和SecondaryNameNode、HDFS工作机制、故障处理、集群安全模式、服役退役节点、集群黑白名单、DataNode多目录详解、HDFS2.x新特性

    接上篇,上篇文章传送门:HDFS(上):HDFS优缺点.HDFS操作.HDFS客户端操作.HDFS的API.HDFS数据流.HDFS的IO流.HDFS读写数据流程.HDFS文件处理详解.windows ...

  7. yarn 更新_【HDFS篇13】HA高可用 --- YARN-HA集群配置

    放弃很简单,但坚持一定很酷 YARN-HA集群配置 YARN-HA工作机制 1.官方文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop ...

  8. 带哨兵节点的链_第五章:部署带安全认证的3节点哨兵集群

    下面所示是sentinel.conf配置文件 #创建配置文件路径 mkdir /etc/sentinel #创建数据文件路径 mkdir -p /var/sentinel/26379 #拷贝senti ...

  9. oracle 序列和表关联,Oracle 创建和管理表、集群和序列

    创建表 1.describe 表名  --查看表结构 定义列的时候变长字符数据类型必须指定最大长度,number可以是最高精度(最高到38位),也可以是指定的精度. 2.字符宽度和数值精度 char列 ...

最新文章

  1. How to Use HTML5 FUll Screen API(怎样使用HTML5全屏接口)
  2. java内部类为什么会持有外部类的引用_为什么内部类持有外部类的引?
  3. 数据库误操作后悔药来了:AnalyticDB PostgreSQL教你实现分布式一致性备份恢复
  4. python网络爬虫软件哪个好用_好好学Python,入门网络爬虫之精华版!
  5. 吴恩达 深度学习 编程作业(1-3)- Planar data classification with one hidden layer(平面花形状)
  6. 微信只显示分享朋友圈和好友  屏蔽其他的分享
  7. Qt5.4中遇到找不到头文件QApplication等。
  8. mysql 删除数据表大小没变_为什么数据删除了,表文件大小不变?
  9. 用 Python 绘制了若干张词云图,惊艳了所有人
  10. ibm刀片服务器虚拟化,刀片服务器内置虚拟化 IBM升级服务器
  11. MyBatis拦截器实现原理
  12. Xilinx IP核 之DDS
  13. 总结数字签名实现身份验证
  14. java创建窗口_java如何创建一个窗口出来
  15. GitHub生成token
  16. 推荐几款好用的去视频水印软件,快来看看吧
  17. C++ 笔试面试题 ~[有答案]
  18. Android Animation动画详解(二): 组合动画特效
  19. axure 设置背景虚化_axure 设置背景虚化_「PPT素材」 77幅各种墙面砖墙纹理背景...
  20. Python正则表达式匹配字符串中的数字

热门文章

  1. python2和python3区别
  2. Error: EACCES: permission denied, symlink
  3. 工程师文化:Chrome快捷键
  4. 应用服务器与WSGI协议以及flask后端框架总结(后端接收请求返回响应的整个流程)...
  5. Idea--Tomcat配置中的On Upate Action 与 On Frame Deactivation
  6. Android 为不同的语言和硬件创建资源
  7. scratch跳一跳游戏脚本_跳一跳游戏:经典跳一跳2微信小游戏,点开既玩
  8. css animation动画完成后隐藏_如何使用CSS实现旋转地球动画效果
  9. java spring 传大数据类型_Spring MVC前后端数据交互总结
  10. java反射的性能_java反射的性能问题