1.集群机器:

1台 装了 ubuntu 14.04的 台式机

1台 装了ubuntu 16.04 的 笔记本     (机器更多时同样适用)

搭建步骤:

准备工作:

使两台机器处于同一个局域网:相互能够 ping 通

主机名称                     IP地址
soyo-VPCCB3S1C   192.168.1.130   (master-->namenode)
soyo-slave01        192.168.1.126        (datanode)

想要更改主机名称的话:sudo vim /etc/hostname   之后重启

之后两台机器都修改 /etc/hosts/ 设置为:

2.配置ssh无密码登录本机和访问集群机器

2台主机电脑分别运行如下命令,测试能否连接到本地localhost

ssh localhost

结果:这样说明没问题

如果不能登录本地:

  1. sudo apt-get openssh-server
  2. ssh-keygen -t rsa -P ""             // 生成ssh公钥
  3. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys          // (authorized_keys 刚开始是没有的) SSH无密码登陆授权
    在保证了2台主机电脑都能连接到本地localhost后,还需要让master主机免密码登录slave01。在master执行如下命令,将master的id_rsa.pub传送给slave01主机。
    scp 是 secure copy 的简写,用于在 Linux 下进行远程拷贝文件,类似于 cp 命令,不过 cp 只能在本机中拷贝。      scp ~/.ssh/id_rsa.pub soyo@soyo-slave01:/home/soyo/

     这个时候在soyo-slave01主机的/home/soyo/路径下可以找到 id_rsa.pub 这个文件

  1. 接着在slave01主机上将master的公钥加入各自的节点上,在soyo-slave01执行如下命令:
  2. cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
  3. rm ~/id_rsa.pub
  4. 配置完成

3.在master(soyo-VPCCB3S1C)测试连接soyo-slave01节点:

4.Hadoop分布式配置:

hadoop而而配置文件都位于/usr/local2/hadoop/etc/hadoop目录下。

总共要配置 5 个文件:slaves,core-site.xml,hdfs-site.xml,mapred-site.xml.template(复制后修改名字为mapred-site.xml),yarn-site.xml
slaves:

core-site.xml:

hdfs-site.xml:

mapred-site.xml

yarn-site.xml

这里如果不配置:

        <name>yarn.nodemanager.resource.memory-mb</name>
        <name>yarn.nodemanager.resource.cpu-vcores</name>

soyo-slave01上的NodeManager无法启动

      memory-mb(可用内存大小) value:参照Linux分类的总结--> http://www.cnblogs.com/soyo/p/7908430.html

      cpu-vcores (CPU核数)      value:参照Linux分类的总结-->  http://www.cnblogs.com/soyo/p/7908365.html

5.给节点分发Hadoop配置:

  当前路径为:/usr/local2

tar -zcf ~/hadoop.tar.gz ./hadoop  (如果Hadoop之前被使用过最好删除 temp 和logs 再分发,每次删除这两个文件后,启动Hadoop前都需要执行:hdfs namenode -format 不然namenode会无法启动,这个下面有讲)

    cd  /home/soyo

scp ./hadoop.tar.gz soyo-slave01:/home/soyo   (这里节点写成:soyo@soyo-slave01:/home/soyo 也可以)

在soyo-slave01节点上执行:
sudo tar -zxf ~/hadoop.tar.gz -C /usr/local2
sudo chmod -R 777 hadoop

6.启动Hadoop集群:

 任意路径下执行:

hdfs namenode -format

start-all.sh

(想要在任意路径下可以启动Hadoop 需要配置:bashrc)

vim ~/.bashrc:

 source ~/.bashrc

7.查看Hadoop分布式是否搭建成功:

在master节点:jps

在 slave节点上:jps

要保证master,slave 的shell中的进程都被启动(少一个都表示没有配置成功)

8.分布式计算:

首先创建 HDFS 上的数据存放目录

hdfs dfs  -mkdir  -P  /user/soyo

往HDFS中导入数据:

hdfs dfs  -put /usr/local2/hadoop/etc/hadoop/*.xml /user/soyo

执行:

hadoop jar /usr/local2/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar grep /user/soyo /user/soyo_output 'dfs[a-z.]+'

可以通过WEB页面查看HDFS上存储的数据以及计算的结果文件:soyo-VPCCB3S1C:50070 (直接浏览器输入这个网址)

同样可以通过 Web 界面查看任务进度:soyo-VPCCB3S1C:8088 (直接浏览器输入这个网址)   如何yarn资源管理器启动失败这个网页是打不开的

9.把计算结果保存到本地:

hdfs dfs -get  /user/soyo_output  /home/soyo

10.DataNode 节点负责保存HDFS上的 数据,那实质的计算过程也是由它做吗?(很无奈啊......图片是反的)

DataNode:

NameNode:

可以看出计算的过程也是由DataNode来承担的

转载于:https://www.cnblogs.com/soyo/p/7868282.html

Hadoop 分布式环境搭建相关推荐

  1. hadoop分布式环境搭建二(集群搭建)

    安装准备 1.在/opt目录下创建software及modules文件夹,并修改到为mac用户下 sudo mkdir /opt/software [sudo] password for mac: [ ...

  2. [大数据学习研究] 3. hadoop分布式环境搭建

    1. Java安装与环境配置 Hadoop是基于Java的,所以首先需要安装配置好java环境.从官网下载JDK,我用的是1.8版本. 在Mac下可以在终端下使用scp命令远程拷贝到虚拟机linux中 ...

  3. hadoop分布式环境搭建

    非常详细的教程你值得拥有:https://www.cnblogs.com/clsn/p/10300487.html 1.安装JDK 环境变量配置 export JAVA_HOME=/usr/moudl ...

  4. Hadoop详解(七):YARYN完全分布式环境搭建

    1. 前言 本文搭建了一个由三节点(master.slave1.slave2)构成的Hadoop完全分布式集群,并通过Hadoop分布式计算的一个示例测试集群的正确性.本文将搭建一个支持Yarn的完全 ...

  5. Hadoop入门基础教程 Hadoop之完全分布式环境搭建

    上一篇我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode.SecondaryNameNode.DataNode.JobTracker.TaskTracker所 ...

  6. Hadoop单机和伪分布式环境搭建

    hadoop环境搭建 1.三个环境        单机.伪分布式.分布式 2.三个分支       apache版本(Apache基金会)       cdh版本(cloudera公司)       ...

  7. 最详细的Hadoop+Hbase+Hive完全分布式环境搭建教程(二)

    继续上次的教程,这次安装hbase与hive.之前有同学反应百度网盘中没有hbase安装包,这次补上了,在上篇博客的网盘链接中已经有了,最详细的Hadoop+Hbase+Hive完全分布式环境搭建教程 ...

  8. 1 Hadoop 3.2.4分布式环境搭建

    1 Hadoop 3.2.4分布式环境搭建 1 系统配置 3台centOS虚拟机 # 配置hosts解析 vim /etc/hosts192.168.88.129 hadoop1 192.168.88 ...

  9. 2021年大数据环境搭建(二):分布式环境搭建

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 分布式环境搭建 集群规 ...

最新文章

  1. Git 分支管理和冲突解决
  2. Effective Java之用实例域代替序数(三十一)
  3. 用ABAP代码读取S/4HANA生产订单工序明细 1
  4. 重拾Javascript(四) 运动 图片的淡入淡出
  5. yum 安装包的用法
  6. xml-apis-ext.jar
  7. 引入 Gateway 网关,这些坑一定要学会避开!!!
  8. 排序算法:选择排序、插入排序、希尔排序
  9. 网络便签与网络通讯录
  10. OBS 直播、录屏软件下载安装操作教程
  11. 两个小球碰撞速度计算方法
  12. 查看、设置CPU工作频率的命令
  13. DNS劫持使用DNS加速有哪些作用
  14. 不会吧不会吧,不会真有人还不会算时间复杂度吧?用十分钟让你明白如何计算时间复杂度
  15. cmd pc如何开多个微信_电脑微信多开怎么弄的?
  16. 微信头像失效_微信头像地址失效踩坑记附带解决方案
  17. Transformers from Scratch(从零开始的Transformers )翻译学习【更新中】
  18. 不知不觉,二哥 CSDN 博客访问量破 1000 万了,这个成绩,全网也没几个吧?
  19. Jetson Nano从零开始(2):硬件篇
  20. ResNet50网络结构

热门文章

  1. ASP.NET禁用视图状态
  2. pycharm中报错:Error: failed to send plot to http://127.0.0.1:63342
  3. usaco window arear(递归求矩形覆盖面积)
  4. ue4 4.24启动无响应_UE4项目问题集合
  5. 常量元素记忆口诀_化学口诀表:帮助学生加深记忆提高解题正确率
  6. JAVA CP936编码转utf8_对一个目录的文件从cp936转换成utf-8
  7. qt打开数据库mysql数据库文件怎么打开_qt打开数据库mysql数据库文件
  8. php 二维数组排序函数,php自定义二维数组排序函数array
  9. 如何获取元素在父级div里的位置_前端面试题--元素的BFC特性和实例
  10. 平年闰年c语言源代码,C语言平年闰年问题