大数据平台架构实战(一)hadoop搭建
目标:美团的大数据平台架构实践 - 知乎
注:该图片来自上面链接
步骤
首先第一步就是HDFS的搭建,也就是hadoop的搭建,下面具体介绍一下步骤和问题。
参考文档:Apache Hadoop 2.10.2 – Hadoop: Setting up a Single Node Cluster.(官网)
由于没有机器,先做一个简单的单机版架构了。
各个文件说明
bin:存放操作Hadoop相关服务(HDFS、Yarn)的脚本,但是通常使用sbin目录下的脚本。
etc:存放Hadoop配置文件,主要包含core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。
lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。
sbin:该目录存放Hadoop管理脚本,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
share:Hadoop各个模块编译后的jar包所在的目录。
src:Hadoop的源码包。
按照官网说明,需要以下两个环境变量:
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export HADOOP_HOME=/Users/xxxx/opt/hadoop-2.10.1export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后直接运行
sbin/start-all.sh
常用地址
http://localhost:50070/dfshealth.html#tab-overview
http://localhost:8088/cluster
遇到问题
没有datanode
jps
5363 SecondaryNameNode
5477 ResourceManager
5017
5161 NameNode
5563 NodeManager
93981
5725 Jps
这会导致无法上传文件
hadoop fs -put etc/hadoop/* /input
22/06/01 11:51:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/06/01 11:51:14 WARN hdfs.DataStreamer: DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/capacity-scheduler.xml._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1832)at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:265)
解决方案:
由于是第一次搭建,直接删除文件系统:
找到创建hdfs的地址,删除就行了,重新启动
安装验证
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep /input /output 'dfs[a-z.]+'
该版本 hadoop里面不支持相对路径,所以注意必须要加上根目录
大数据平台架构实战(一)hadoop搭建相关推荐
- 大数据平台架构实战(二)IntelliJ IDEA搭建hadoop
IntelliJ IDEA 构建工程 工具类开发,随便找,IntelliJ IDEA搭建Hadoop开发环境(下)_Captain.Y.的博客-CSDN博客 生成jar包 由于我们的开发环境和hado ...
- 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践
导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...
- 初识大数据--Hadoop大数据平台架构与实践
Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 无 ...
- hadoop大数据平台架构之DKhadoop详解
hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...
- 大数据平台架构:数据平台建设的几种方案
随着大数据在越来越多的企业当中落地,企业要开展大数据相关的业务,那么首先要搭建起自身的数据平台.而企业搭建大数据平台,往往需要结合成本.业务.人员等各方面的因素,来规划数据平台建设方案.今天我们就来聊 ...
- 收藏|如何做一个好的大数据平台架构
一.Lambda架构需求 Lambda架构背后的需求是由于MR架构的延迟问题.MR虽然实现了分布式.可扩展数据处理系统的目的,但是在处理数据时延迟比较严重.实际上如果内存和CPU足够强大,MR也可以实 ...
- 大数据平台架构及主流技术栈
互联网和移动互联网技术开启了大规模生产.分享和应用数据的大数据时代.面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索.Google的三篇论文 GFS(2003),MapReduc ...
- 金融机构大数据平台架构设计的 10 个考量点
1.金融企业大数据平台架构设计的关键点有哪些? 架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案.作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技 ...
- 软件架构设计原则和大数据平台架构层
1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...
最新文章
- 如果不知道MySQL当前使用配置文件(my.cnf)的路径的解决方法
- 慢保刚办下来如何使用_在科目二离合和方向没学好的学员如何备考科目三?
- 皮一皮:充实的一天...
- 万物根源-一分钟教你发布npm包
- 轴添加点击事件_Q群答疑丨如何批量修改Revit轴网编号,为它添加前缀?
- Scala中映射的语法(对应Java中的Map集合的定义)
- 足球赛事分组代码PHP,PHP数组分组排序程序代码
- php调用另一个php文件里的变量的值,thinkphp中一个方法调用另一个步骤的变量
- 判断语句_如何学好C语言判断语句?攻略if语句是第一步
- 服务器第二代型号,SK Hynix公开第二代服务器用SSD
- mysql 5.7 enum_MYSQL中 ENUM 类型的详细解释
- Visual Basic里与Print有关的函数
- ORACLE REGEXP应用实例
- vs2008软件测试实战 3 web test(1)
- keepalived mysql 主主_MySQL主主+Keepalived高可用(一):解决单点故障
- Windows下Pycharm专业版2021.2以及Anaconda安装教程
- InnoDB怎么解决幻读的?
- JBOSS启动错误:Not pointing to a directory
- 探索 Zynq MPSoC:配套 PYNQ 和机器学习应用一起使用 - 序言鸣谢目录20211231
- 圆圈中最后剩下的数字(简单)