步骤

首先第一步就是HDFS的搭建，也就是hadoop的搭建，下面具体介绍一下步骤和问题。

参考文档：Apache Hadoop 2.10.2 – Hadoop: Setting up a Single Node Cluster.（官网）

由于没有机器，先做一个简单的单机版架构了。

各个文件说明

bin：存放操作Hadoop相关服务(HDFS、Yarn)的脚本，但是通常使用sbin目录下的脚本。

etc：存放Hadoop配置文件，主要包含core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

include：对外提供的编程库头文件(具体动态库和静态库在lib目录中)，这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。

lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。

libexec：各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

sbin：该目录存放Hadoop管理脚本，主要包含HDFS和YARN中各类服务的启动/关闭脚本。

share：Hadoop各个模块编译后的jar包所在的目录。

src：Hadoop的源码包。

按照官网说明，需要以下两个环境变量：

 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop                                                                                                                                                                                                                                                 export HADOOP_HOME=/Users/xxxx/opt/hadoop-2.10.1export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后直接运行

sbin/start-all.sh

常用地址

http://localhost:50070/dfshealth.html#tab-overview

http://localhost:8088/cluster

遇到问题

没有datanode

jps
5363 SecondaryNameNode
5477 ResourceManager
5017
5161 NameNode
5563 NodeManager
93981
5725 Jps

这会导致无法上传文件

 hadoop fs -put etc/hadoop/* /input
22/06/01 11:51:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/06/01 11:51:14 WARN hdfs.DataStreamer: DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/capacity-scheduler.xml._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).  There are 0 datanode(s) running and no node(s) are excluded in this operation.at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1832)at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:265)

解决方案：

由于是第一次搭建，直接删除文件系统：

找到创建hdfs的地址，删除就行了，重新启动

安装验证

bin/hadoop jar  share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar  grep /input /output 'dfs[a-z.]+'

该版本 hadoop里面不支持相对路径，所以注意必须要加上根目录

大数据平台架构实战（一）hadoop搭建相关推荐

大数据平台架构实战（二）IntelliJ IDEA搭建hadoop
IntelliJ IDEA 构建工程工具类开发,随便找,IntelliJ IDEA搭建Hadoop开发环境(下)_Captain.Y.的博客-CSDN博客生成jar包由于我们的开发环境和hado ...
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践
导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋宋文欣孙浩峰来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...
初识大数据--Hadoop大数据平台架构与实践
Hadoop大数据平台架构与实践推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念无 ...
hadoop大数据平台架构之DKhadoop详解
hadoop大数据平台架构之DKhadoop详解大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...
大数据平台架构：数据平台建设的几种方案
随着大数据在越来越多的企业当中落地,企业要开展大数据相关的业务,那么首先要搭建起自身的数据平台.而企业搭建大数据平台,往往需要结合成本.业务.人员等各方面的因素,来规划数据平台建设方案.今天我们就来聊 ...
收藏|如何做一个好的大数据平台架构
一.Lambda架构需求 Lambda架构背后的需求是由于MR架构的延迟问题.MR虽然实现了分布式.可扩展数据处理系统的目的,但是在处理数据时延迟比较严重.实际上如果内存和CPU足够强大,MR也可以实 ...
大数据平台架构及主流技术栈
互联网和移动互联网技术开启了大规模生产.分享和应用数据的大数据时代.面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索.Google的三篇论文 GFS(2003),MapReduc ...
金融机构大数据平台架构设计的 10 个考量点
1.金融企业大数据平台架构设计的关键点有哪些? 架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案.作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技 ...
软件架构设计原则和大数据平台架构层
1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...

大数据平台架构实战（一）hadoop搭建

步骤