全栈工程师开发手册 (作者:栾鹏)
架构系列文章


hadoop的集群部署,可以参考https://blog.csdn.net/luanpeng825485697/article/details/81985602

假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。

启动与关闭

启动HADOOP

进入HADOOP_HOME目录。
执行 sh bin/start-all.sh

关闭HADOOP
进入HADOOP_HOME目录。

执行sh bin/stop-all.sh

文件操作

Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。

查看文件列表
查看hdfs中/user/admin/aaron目录下的文件。

进入HADOOP_HOME目录。
执行sh bin/hadoop fs -ls /user/admin/aaron

这样,我们就找到了hdfs中/user/admin/aaron目录下的文件了。

我们也可以列出hdfs中/user/admin/aaron目录下的所有文件(包括子目录下的文件)。
进入HADOOP_HOME目录。
执行sh bin/hadoop fs -lsr /user/admin/aaron

创建文件目录
查看hdfs中/user/admin/aaron目录下再新建一个叫做newDir的新目录。
进入HADOOP_HOME目录。
执行sh bin/hadoop fs -mkdir /user/admin/aaron/newDir

删除文件
删除hdfs中/user/admin/aaron目录下一个名叫needDelete的文件
进入HADOOP_HOME目录。
执行sh bin/hadoop fs -rm /user/admin/aaron/needDelete

删除hdfs中/user/admin/aaron目录以及该目录下的所有文件
进入HADOOP_HOME目录。
执行sh bin/hadoop fs -rmr /user/admin/aaron

上传文件
上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/aaron目录下
进入HADOOP_HOME目录。
执行sh bin/hadoop fs –put /home/admin/newFile /user/admin/aaron/

下载文件
下载hdfs中/user/admin/aaron目录下的newFile文件到本机/home/admin/newFile中
进入HADOOP_HOME目录。
执行sh bin/hadoop fs –get /user/admin/aaron/newFile /home/admin/newFile

查看文件
我们可以直接在hdfs中直接查看文件,功能与类是cat类似

查看hdfs中/user/admin/aaron目录下的newFile文件
进入HADOOP_HOME目录。
执行sh bin/hadoop fs –cat /home/admin/newFile

MAPREDUCE JOB操作

提交MAPREDUCE JOB
原则上说,Hadoop所有的MapReduce Job都是一个jar包。

运行一个/home/admin/hadoop/job.jar的MapReduce Job
进入HADOOP_HOME目录。
执行sh bin/hadoop jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs]

杀死某个正在运行的JOB
假设Job_Id为:job_201005310937_0053
进入HADOOP_HOME目录。
执行sh bin/hadoop job -kill job_201005310937_0053

更多HADOOP的命令
上面介绍的这些Hadoop的操作命令是我们最常用的。如果你希望了解更多,可以按照如下的方式获取命令的说明信息。
进入HADOOP_HOME目录。
执行sh bin/hadoop

我们可以看到更多命令的说明信息:

Usage: hadoop [--config confdir] COMMANDwhere COMMAND is one of:namenode -format     format the DFS filesystemsecondarynamenode    run the DFS secondary namenodenamenode             run the DFS namenodedatanode             run a DFS datanodedfsadmin             run a DFS admin clientfsck                 run a DFS filesystem checking utilityfs                   run a generic filesystem user clientbalancer             run a cluster balancing utilityjobtracker           run the MapReduce job Tracker nodepipes                run a Pipes jobtasktracker          run a MapReduce task Tracker nodejob                  manipulate MapReduce jobsqueue                get information regarding JobQueuesversion              print the versionjar <jar>            run a jar filedistcp <srcurl> <desturl> copy file or directories recursivelyarchive -archiveName NAME <src>* <dest> create a hadoop archivedaemonlog            get/set the log level for each daemonorCLASSNAME            run the class named CLASSNAMEMost commands print help when invoked w/o parameters.

各组件端口

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。
这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:

组件 节点 默认端口 配置 用途说明
HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输
HDFS DataNode 50075 dfs.datanode.http.address http服务的端口
HDFS DataNode 50475 dfs.datanode.https.address https服务的端口
HDFS DataNode 50020 dfs.datanode.ipc.address ipc服务的端口
HDFS NameNode 50070 dfs.namenode.http-address http服务的端口
HDFS NameNode 50470 dfs.namenode.https-address https服务的端口
HDFS NameNode 8020 fs.defaultFS 接收Client连接的RPC端口,用于获取文件系统metadata信息。
HDFS journalnode 8485 dfs.journalnode.rpc-address RPC服务
HDFS journalnode 8480 dfs.journalnode.http-address HTTP服务
HDFS ZKFC 8019 dfs.ha.zkfc.port ZooKeeper FailoverController,用于NN HA
YARN ResourceManager 8032 yarn.resourcemanager.address RM的applications manager(ASM)端口
YARN ResourceManager 8030 yarn.resourcemanager.scheduler.address scheduler组件的IPC端口
YARN ResourceManager 8031 yarn.resourcemanager.resource-tracker.address IPC
YARN ResourceManager 8033 yarn.resourcemanager.admin.address IPC
YARN ResourceManager 8088 yarn.resourcemanager.webapp.address http服务端口
YARN NodeManager 8040 yarn.nodemanager.localizer.address localizer IPC
YARN NodeManager 8042 yarn.nodemanager.webapp.address http服务端口
YARN NodeManager 8041 yarn.nodemanager.address NM中container manager的端口
YARN JobHistory Server 10020 mapreduce.jobhistory.address IPC
YARN JobHistory Server 19888 mapreduce.jobhistory.webapp.address http服务端口
HBase Master 60000 hbase.master.port IPC
HBase Master 60010 hbase.master.info.port http服务端口
HBase RegionServer 60020 hbase.regionserver.port IPC
HBase RegionServer 60030 hbase.regionserver.info.port http服务端口
HBase HQuorumPeer 2181 hbase.zookeeper.property.clientPort HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。
HBase HQuorumPeer 2888 hbase.zookeeper.peerport HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。
HBase HQuorumPeer 3888 hbase.zookeeper.leaderport HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。
Hive Metastore 9083 /etc/default/hive-metastore中export PORT=<port>来更新默认端口
Hive HiveServer 10000 /etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=<port>来更新默认端口
ZooKeeper Server 2181 /etc/zookeeper/conf/zoo.cfg中clientPort=<port> 对客户端提供服务的端口
ZooKeeper Server 2888 /etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 follower用来连接到leader,只在leader上监听该端口。
ZooKeeper Server 3888 /etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

HADOOP基本操作命令,及其组件端口相关推荐

  1. Hadoop大数据生态组件环境安装

    首先安装Centos系统修改网络配置: 我的三台机器: master 192.168.179.10 slave1 192.168.179.11 slava2 192.168.179.12 各组件端口号 ...

  2. Hadoop生态圈-Flume的组件之自定义拦截器(interceptor)

    Hadoop生态圈-Flume的组件之自定义拦截器(interceptor) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客只是举例了一个自定义拦截器的方法,测试字节传输速 ...

  3. hadoop基本操作命令小结

    启动和关闭Hadoop 启动Hadoop  1.进入HADOOP_HOME目录.  2.执行bin/start-all.sh 关闭Hadoop  1.进入HADOOP_HOME目录.  2.执行bin ...

  4. Hadoop基础-Hdfs各个组件的运行原理介绍

    Hadoop基础-Hdfs各个组件的运行原理介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...

  5. Hadoop生态圈-Flume的组件之sink处理器

    Hadoop生态圈-Flume的组件之sink处理器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一. 二. 转载于:https://www.cnblogs.com/yinzhe ...

  6. 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置

    简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...

  7. Hadoop记录-hadoop2.x常用端口及定义方法

    Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问.而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如 ...

  8. Hadoop日记Day7---HDFS的WED端口

    HDFS 对外提供了可供访问的http server,开放了很多端口,下面介绍常用的几个端口(http://hadoop:--). 一.50070 端口,查看NameNode 状态,如图1.1所示. ...

  9. Hadoop入门及常用组件介绍

    文章目录 大数据体系架构 hadoop介绍 Hadoop生态系统主要组件 HDFS (分布式文件系统) MapReduce(分布式计算框架) Spark(基于内存的分布式计算框架) Storm(实时的 ...

最新文章

  1. java js 转换_[Java教程]javascript 类型转换。
  2. MapStruct在Eclipse中的使用
  3. Python把数据存储到CSV
  4. wxWidgets:wxRegKey类用法
  5. python服务器搭建 实战_实战讲解:如何用Python搭建一个服务器
  6. 修改内核的启动logo
  7. ubuntu14.04 64bit主机下面安装android的NDK开发环境
  8. python numpy pandas 书 全_用Python做数据分析,Numpy,Pandas,matp
  9. 【面向对象】对象模型的七要素
  10. 每天一算法之插入排序
  11. eggjs增删改查MySQL_egg-sequelize 实现 增删改查
  12. 私有云中Kubernetes Cluster HA方案
  13. 用户,用户组,文件和目录权限详解
  14. 云计算机盒子,网络盒子秒变PC电脑必备装备客厅云电脑
  15. VS Code 创建HTML页面教程
  16. 【组合优化】旅行商问题Traveling Salesman Problem(TSP)-概述
  17. ARM DS5 项目build后无法找到axf文件
  18. 北京地铁21号线_北京地铁22号线(即平谷线)全线21站具体位置确定了!
  19. 新手建网站的步骤及注意事项
  20. 医院基本流程-挂号收费

热门文章

  1. python在线编辑器手机-‎App Store 上的quot;Python AI - 代码编辑器”
  2. 用python画多来a梦-python3里tkinter中canvas(画板)案例之哆啦A梦
  3. python是什么-马哥教育官网-专业Linux培训班,Python培训机构
  4. 苹果沦为语音识别领域失败者?
  5. 成都这家AI语音芯片公司又融了数千万,能“偷袭”科大讯飞不?
  6. 数据库服务器备份日志文件,数据库服务器备份日志文件
  7. linux中权限减少,Linux中权限管理
  8. 【mysql快速入门】牛客网:查询所有列查询多列查询结果去重查询结构返回限制行数将查询后的列重新命名
  9. SDL2源代码分析3:渲染器(SDL_Renderer)
  10. Camshift算法原理及其Opencv实现