前面我搭建的Hadoop都是单机伪分布式的,并不能真正感受到Hadoop的最大特点,分布式存储和分布式计算。所以我打算在虚拟机中同时开启3台机器,实现分布式的Hadoop群集。

1.准备3台Ubuntu Server

1.1复制出3台虚拟机

我们可以用之前编译和安装好Hadoop的虚拟机作为原始版本,在VirtualBox中复制三台新的虚拟机出来,也可以完全重新安装一台全新的Ubuntu Server,然后在VirtualBox中复制出2台,就变成了3台虚拟机。

1.2修改主机名

主机名保存在/etc/hostname文件中,我们可以运行

sudo vi /etc/hostname

命令,然后为三台机器起不同的名字,这里我们就分别起名:

master

slave01

slave02

1.3修改为固定IP

Ubuntu的IP地址保存到/etc/network/interfaces文件中,我们需要为3台虚拟机分别改为固定的IP,这里我的环境是在192.168.100.*网段,所以我打算为master改为192.168.100.40,操作如下:

sudo vi /etc/network/interfaces

然后可以看到每个网卡的配置,我这里网卡名是叫enp0s3,所以我改对应的内容为:

# The primary network interface
auto enp0s3
iface enp0s3 inet static
address 192.168.100.40
gateway 192.168.100.1
netmask 255.255.255.0

对slave01改为192.168.100.41,slave02改为192.168.100.42。

1.4修改Hosts

由于三台虚拟机是使用的默认的DNS,所以我们需要增加hosts记录,才能直接用名字相互访问。hosts文件和Windows的Hosts文件一样,就是一个域名和ip的对应表。

编辑hosts文件:

sudo vi /etc/hosts

增加三条记录:

192.168.100.40  master
192.168.100.41  slave01
192.168.100.42  slave02

1.5重启

这一切修改完毕后我们重启一下三台机器,然后可以试着各自ping master,ping slave01 ping slave02看能不能通。按照上面的几步操作,应该是没有问题的。

1.6新建用户和组

这一步不是必须的,就采用安装系统后的默认用户也是可以的。

sudo addgroup hadoop

sudo adduser --ingroup hadoop hduser

为了方便,我们还可以把hduser添加到sudo这个group中,那么以后我们在hduser下就可以运行sudo xxx了。

sudo adduser hduser sudo

切换到hduser:

su – hduser

1.7配置无密码访问SSH

在三台机器上首先安装好SSH

sudo apt-get install ssh

然后运行

ssh-keygen

默认路径,无密码,会在当前用户的文件夹中产生一个.ssh文件夹。

接下来我们先处理master这台机器的访问。我们进入这个文件夹,

cd .ssh

然后允许无密码访问,执行:

cp id_rsa.pub authorized_keys

然后要把slave01和slave02的公钥传给master,进入slave01

scp ~/.ssh/id_rsa.pub hduser@master:/home/hduser/.ssh/id_rsa.pub.slave01

然后在slave02上也是:

scp ~/.ssh/id_rsa.pub hduser@master:/home/hduser/.ssh/id_rsa.pub.slave02

将 slave01 和 slave02的公钥信息追加到 master 的 authorized_keys文件中,切换到master机器上,执行:

cat id_rsa.pub.slave01 >> authorized_keys
cat id_rsa.pub.slave02 >> authorized_keys

现在authorized_keys就有3台机器的公钥,可以无密码访问任意机器。只需要将authorized_keys复制到slave01和slave02即可。在master上执行:

scp authorized_keys hduser@slave01:/home/hduser/.ssh/authorized_keys
scp authorized_keys hduser@slave02:/home/hduser/.ssh/authorized_keys

最后我们可以测试一下,在master上运行

ssh slave01

如果没有提示输入用户名密码,而是直接进入,就说明我们配置成功了。

同样的方式测试其他机器的无密码ssh访问。

2.安装相关软件和环境

如果是直接基于我们上一次安装的单机Hadoop做的虚拟机,那么这一步就可以跳过了,如果是全新的虚拟机,那么就需要做如下操作:

2.1配置apt source,安装JDK

sudo vi /etc/apt/sources.list
打开后把里面的us改为cn,如果已经是cn的,就不用再改了。然后运行:
sudo apt-get update
sudo apt-get install default-jdk

2.2下载并解压Hadoop

去Hadoop官网,找到最新稳定版的Hadoop下载地址,然后下载。当然如果是X64的Ubuntu,我建议还是本地编译Hadoop,具体编译过程参见这篇文章。
wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
下载完毕后然后是解压
tar xvzf hadoop-2.7.3.tar.gz
最后将解压后的Hadoop转移到正式的目录下,这里我们打算使用/usr/local/hadoop目录,所以运行命令:
sudo mv hadoop-2.7.3 /usr/local/hadoop

3.配置Hadoop

3.1配置环境变量

编辑.bashrc或者/etc/profile文件,增加如下内容:

# Java Env
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

# Hadoop Env
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3.2进入Hadoop的配置文件夹:

cd /usr/local/hadoop/etc/hadoop

(1)修改hadoop-env.sh

增加如下配置:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

export HADOOP_PREFIX=/usr/local/hadoop

(2)修改core-site.xml

<configuration>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hduser/temp</value>
  <description>A base for other temporary directories.</description>
</property>

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://master:9000</value>
</property>
</configuration>

这里我们指定了一个临时文件夹的路径,这个路径必须存在,而且有权限访问,所以我们在hduser下创建一个temp目录。

(3)hdfs-site.xml

设置HDFS复制的数量

<configuration>
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
</configuration>

(4)mapred-site.xml

这里可以设置MapReduce的框架是YARN:

<configuration>
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>
</configuration>

(5)配置YARN环境变量,打开yarn-env.sh

里面有很多行,找到JAVA_HOME,设置:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

(6)配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
</configuration>

(7)最后打开slaves文件,设置有哪些slave节点。

由于我们设置了3份备份,把master即是Name Node又是Data Node,所以我们需要设置三行:

master
slave01
slave02

3.3配置slave01和slave02

在slave01和slave02上做前面3.1 3.2相同的设置。

一模一样的配置,这里不再累述。

4.启动Hadoop

回到Master节点,我们需要先运行

hdfs namenode –format

格式化NameNode。

然后执行

start-all.sh

这里Master会启动自己的服务,同时也会启动slave01和slave02上的对应服务。

启动完毕后我们在master上运行jps看看有哪些进程,这是我运行的结果:

2194 SecondaryNameNode
2021 DataNode
1879 NameNode
3656 Jps
2396 ResourceManager
2541 NodeManager

切换到slave01,运行jps,可以看到如下结果:

1897 NodeManager
2444 Jps
1790 DataNode

切换到slave02也是一样的有这些服务。

那么说明我们的服务网都已经启动成功了。

现在我们在浏览器中访问:

http://192.168.100.40:50070/

应该可以看到Hadoop服务已经启动,切换到Datanodes可以看到我们启动的3台数据节点:

在Ubuntu上搭建Hadoop群集相关推荐

  1. Ubuntu上安装Hadoop集群

    戳蓝字"CSDN云计算"关注我们哦! 前面我们介绍了在Ubuntu上安装Hadoop单机版.但是我们知道,Hadoop在实际工作中都是以集群的形式存在的,毕竟需要处理大量的数据,单 ...

  2. 在多台机器上搭建Hadoop的分布式环境

    2019独角兽企业重金招聘Python工程师标准>>> 分布式环境搭建之环境介绍 之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的 ...

  3. 【mongodb环境】在ubuntu上搭建mongodb,并且开启远程连接

    [mongodb环境]在ubuntu上搭建mongodb,并且开启远程连接 标签(空格分隔): mongodb 参考资料 mongodb 官方文档 安装mongodb 第一步:设置 public ke ...

  4. Windows 7 64位系统上搭建Hadoop伪分布式环境(很详细)

    在开始配置前,我们先了解Hadoop的三种运行模式. Hadoop的三种运行模式 独立(或本地)模式:无需运行任何守护进程,所有程序都在同一个JVM上执行.在独立模式下测试和调试MapReduce程序 ...

  5. 基于docker在Ubuntu上搭建TensorFlow-GPU计算环境

    这里转载一篇Docker安装TF GPU的版本 基于docker在Ubuntu上搭建TensorFlow-GPU计算环境 由于实验室的服务器有多人共享使用,而不同人的代码对应的keras和tensor ...

  6. 在ubuntu上搭建IC数模混合环境

    在ubuntu上搭建IC数模混合环境 仅以这篇博客来纪念一下当年因搭环境而掉的头发 文章目录 在ubuntu上搭建IC数模混合环境 对linux新手的一些搭环境常识补充 尽信书不如无书 没有基础的劝退 ...

  7. Ubuntu上搭建自己的ngrok服务器

    Ubuntu上搭建自己的ngrok服务器 参考网站:http://www.sunnyos.com/article-show-48.html 上面的内容似乎是sunny大神本人写的,了解的越多,发现自己 ...

  8. 在Ubuntu上搭建Maemo 5及Qt 4开发环境

    Maemo 是Linux的一个嵌入式发行版,支持ARM构架,其开发环境自然是桌面Linux了.由于Maemo使用了Debian包管理系统,所以最好还是在Debian或者Ubuntu上搭建开发环境了(目 ...

  9. linux 安装cifs,在ubuntu上搭建sambd实现linux的之间的cifs通信

    在ubuntu上搭建sambd实现linux的之间的cifs通信 (2013-05-14 15:33:36) CIFS是 common internet file system 的简称,windows ...

  10. ubuntu上搭建tftp服务

    ubuntu上搭建tftp服务 1. 安装tftp服务 2. 配置 3. 重启tftp服务 4. 测试 1. 安装tftp服务 sudo apt install xinetd tftp tftpd 2 ...

最新文章

  1. Linux执行mount挂载覆盖文件的还原
  2. toad mysql导入excel_Oracle 使用TOAD实现导入导出Excel数据
  3. 自制一个 elasticsearch-spring-boot-starter
  4. Swift - 使用CoreLocation实现定位(经纬度、海拔、速度、距离等)
  5. ways to improve your presentation by your own
  6. dataframe格式的数据处理
  7. 模拟组合键 postmessage ctrl+v_《模拟江湖》:TapTap热门榜单第一,测试版评分8.0的汉家松鼠工作室新作...
  8. cge模型可以用matlab实现么,GEMPACK软件 解决CGE模型
  9. linux 备份路由配置文件,RouterOS的备份和恢复
  10. 2018-06-13 pymssql 访问 SQL Server 2017 或 pyodbc 访问支持 ODBC 的数据库
  11. java8中的接口与时间操作
  12. Mysql --- 索引
  13. 【TSP】基于matlab蚁群算法求解31城市旅行商问题【含Matlab源码 1147期】
  14. Eclipse is running in a JRE, but a JDK is requi...
  15. CSS命名规范--BEM
  16. 机器学习丨如何理解正定矩阵和半正定矩阵
  17. 我的VSTO之路(五):Outlook初步开发之联系人扩展
  18. ViewBinding使用时出现Could not find method viewBinding() for arguments错误
  19. 京东、闲鱼、转转的二手战场
  20. VHDL——含异步清零和同步使能的加法计数器源程序

热门文章

  1. 查看文章strncpy()功能更好的文章
  2. java基础 包装类
  3. Javascript (history,location)对象
  4. Linux测试磁盘能力
  5. matlab中如何创建使用构架数组?
  6. 运动目标检测跟踪各过程算法综述
  7. 在Mac上将WebP图像批量转换为JPG的方法
  8. ubuntu 18.04 使用 nvm 安装 nodejs
  9. dependencies.dependency.version' for org.hibernate:hibernate-validator:jar is missing.
  10. 藏在兰州拉面里精益管理秘诀