Hadoop安装流程

Hadoop安装流程... 1

虚拟机安装设置... 1

设置网卡... 1

共享文件夹... 2

虚拟机安装过程... 2

基础环境安装... 4

赋予用户root权限... 5

VirtualBox Extension Pack安装（目的：共享文件夹）... 6

挂载共享文件夹... 7

JAVA环境安装、设置... 7

MySQL-Server安装... 8

SSH设置... 9

配置NDP服务（目的保持所有机器时间同步）... 11

Hadoop安装... 11

虚拟机安装设置

虚拟机安装前的设置

设置网卡

设置之后虚拟机就像一台真实的机器介入路由器，有自己的IP，可以和主机通讯

共享文件夹

宿主机可和虚拟机之间的共享文件夹

虚拟机安装过程

1、默认就可以

2、全新安装选Yes就可以（放弃原数据）

3、全新安装选择“使用所有空间”

基础环境安装

虚拟机安装后，Hadoop安装前的相关必要项的安装

网络设置

赋予用户root权限

以root用户登录
添加修改权限：chmod u+w /etc/sudousers
执行：vi /etc/sudousers

3、将自己的用户设置为拥有超级权限

5、保存后移除权限：chmod u-w /etc/sudousers

VirtualBox Extension Pack安装（目的：共享文件夹）

如图加载安装盘

（或者直接加载C:\Program Files\Oracle\VirtualBox\VBoxGuestAdditions.iso）

进入光盘目录执行安装：/media/VBOXADD…../VBoxLinuxAdditions.run

执行出错的处理（查看/var/log/VBoxGuestAdditions.log看错误信息）

错误大致分一下几种：

gcc、make没安装

处理：安装或更新gcc、make

命令：yum install gcc 或yum update gcc

yum install make 或 yum update make

Linux核心文件不是最新（kernel等，主要看错误提示）

处理：安装或更新kernel相关的包

使用yum list kernel* 查看可用的更新和安装，根据情况安装货更新

命令：yum update kernel

yum update kernel-headers

yum install kernel-devel

如果仍然不行，则将上除了kernel之外所有的包都卸载，重新安装

挂载共享文件夹

建共享文件夹

mkdir ~/ShareFolder

挂载共享文件

mount –t vboxsf VBShareFolder ~/ShareFolder

VBShareFolder：在VirtualBox中定义的共享文件夹名称（指向宿主机的文件夹）

~/ShareFolder：虚拟机中对应的文件夹

JAVA环境安装、设置

确认当前安装的java

rpm –qa|grep java

删除OpenJDK

rpm –e java-1.6.0-openjdk-……

rpm –e java-1.70-openjdk-……

1.5不能删，系统有用到。

是否删除成功可以用：java –version验证

安装OracleJDK

将rpm安装包放到共享文件
在虚拟机中安装rpm包

rpm -ivh jdk-7u79-linux-x64.rpm

设置环境变量

vi /etc/profile

在最后追加

JAVA_HOME=/usr/java/jdk1.7.0.79

PATH=${JAVA_HOME}/bin:${PATH}

export JAVA_HOME PATH

保存后执行：source /usr/profile 重新加载profile

此时可用java –verison验证，如果版本仍然不对，则使用以下方法：

定位到当前实际起效的java位置

查看名字为java的程序：whereis java

查看PATH下java的第一个执行位置：which java

看出具体位置，定向到该目录，并查看java

cd /usr/bin

ll java

发现具体的link位置

可改变指向的位置，也可直接重命名该java链接

MySQL-Server安装

可根据自身情况选择是否安装最新的MySQL-Server

查看当前已安装的mysql-server版本：rpm –qa|grep mysql

查看可安装的版本：yum list mysql-server

更新或安装 yum update mysql-server
设置开机自启动MySQL服务

chkconfig mysqld on

启动/关闭/重启MySQL服务

service mysqld start/stop/restart

默认没有密码，需要设置root密码

/usr/bin/mysqladmin –u root password ‘新密码’

登录数据库

mysql –u root –p

设置忽略大小写

用root帐号登录后，在/etc/my.cnf中的[mysqld]后添加lower_case_table_names=1，

重启MYSQL服务，这时已设置成功：不区分表名的大小写。

配置防火墙开启3306端口

vi /etc/sysconfig/iptables

增加如下

配置用户可以远程连接

语法：grant all privileges on *.* to '用户名'@'机器名或IP地址' identified by '用户密码' with grant option;

设置root用户可以在任何地方访问数据库

grant all privileges on *.* to 'root'@'%' identified by 'root的密码' with grant option;

flush privileges;

SSH设置

安装SSH

service sshd status

或rpm –qa|grep ssh

可以确定ssh是否已经安装，没装就yum货rpm安装：

yum install openssh-server

配置免密登录
1. 在控制机上调用PuttyGen.exe生成公钥和私钥

Save public key：保存公钥

Save private key：保存私钥

在被控机上生成密钥

ssh-keygen –t rsa

将控制机上生成的公钥内容添加至被控机

cat ~/ShareFolder/key.pub ~/.ssh/authorized.keys

authorized.keys文件不存在将会自动创建

配置登录方式及密钥文件

vi /etc/ssh/sshd_config

修改如下设置

禁止root登录：PermitRootLogin no

开启公钥登录：PublicAuthentication yes

公钥文件位置：AuthorizedKeysFile .ssh/authorized_keys

为响应文件夹、文件设置权限

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

启动/停止/重启SSH服务

service sshd start/stop/restart

设置服务开机自启动

chkconfig sshd on

配置NDP服务（目的保持所有机器时间同步）

安装或更新NTP

yum install ntp 或 yum update ntp

设置开机启动

chkconfig ntpd on

设置主机的同步事件服务器

打开配置文件 vi /ect/ndp.conf

server time.windows.com prefer

server time.nist.gov iburst

server 0.centos.pool.ntp.org iburst

server 1.centos.pool.ntp.org iburst

server 2.centos.pool.ntp.org iburst

server 3.centos.pool.ntp.org iburst

手动同步时间命令

ntpdate -u time.windows.com

重启服务，查看

service ntpd restart

ntpstat

如果有问题
1. 可以在ntp.conf文件做以下修改

restrict default nomodify notrap nopeer noquery

restrict ::1

interface listen eth0

interface ignore ipv6

然后打开iptables配置，放开端口123的UPD

Hadoop安装

安装Cloudera Manager Server

主节点解压安装

cloudera manager的目录默认位置在/opt下，解压： tar xzvf cloudera-manager*.tar.gz 将解压后的cm-5.1.3和cloudera目录放到/opt目录下。

为Cloudera Manager 5建立数据库

首先需要去MySql的官网下载JDBC驱动，MySQL :: Download Connector/J ，解压后，找到mysql-connector-java-5.1.33-bin.jar，放到/opt/cm-5.1.3/share/cmf/lib/中。

在所有节点创建cloudera-scm用户

useradd --system --home=/opt/cm-5.1.3/run/cloudera-scm-server/ --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm

在主节点初始化CM5的数据库：

/opt/cm-5.1.3/share/cmf/schema/scm_prepare_database.sh mysql cm -hlocalhost -uroot -pxxxx --scm-host localhost scm scm scm

安装Cloudera Manager Agent

修改/opt/cm-5.1.3/etc/cloudera-scm-agent/config.ini中的server_host为主节点的主机名。

同步Agent到其他节点

scp -r /opt/cm-5.1.3 root@n2:/opt/

准备Parcels，用以安装CDH5

将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中（parcel-repo需要手动创建）。

CDH5的安装配置

echo 0 > /proc/sys/vm/swappiness（原始值为60）

启动所有DataNode节点的Agent服务:

/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent start

Cloudera Manager Server和Agent都启动以后，就可以进行CDH5的安装配置了。

这时可以通过浏览器访问主节点的7180端口测试一下了（由于CM Server的启动需要花点时间，这里可能要等待一会才能访问），默认的用户名和密码均为admin：

可以看到，免费版本的CM5已经没有原来50个节点数量的限制了。

各个Agent节点正常启动后，可以在当前管理的主机列表中看到对应的节点。选择要安装的节点，点继续。

接下来，出现以下包名，说明本地Parcel包配置无误，直接点继续就可以了。

点击，继续，如果配置本地Parcel包无误，那么下图中的已下载，应该是瞬间就完成了，然后就是耐心等待分配过程就行了，大约10多分钟吧，取决于内网网速。

接下来是服务器检查，可能会遇到以下问题：

Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 60。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该设置。您可以继续进行安装，但可能会遇到问题，Cloudera Manager 报告您的主机由于交换运行状况不佳。以下主机受到影响：

通过 echo 0 > /proc/sys/vm/swappiness 即可解决。

接下来是选择安装服务：

服务配置，一般情况下保持默认就可以了（Cloudera Manager会根据机器的配置自动进行配置，如果需要特殊调整，自行进行设置就可以了）：

接下来是数据库的设置，检查通过后就可以进行下一步的操作了：

下面是集群设置的审查页面，我这里都是保持默认配置的：

终于到安装各个服务的地方了，注意，这里安装Hive的时候可能会报错，因为我们使用了MySql作为hive的元数据存储，hive默认没有带mysql的驱动，通过以下命令拷贝一个就行了：

cp /opt/cm-5.1.3/share/cmf/lib/mysql-connector-java-5.1.33-bin.jar /opt/cloudera/parcels/CDH-5.1.3-1.cdh5.1.3.p0.12/lib/hive/lib/

服务的安装过程大约半小时内就可以完成：

安装完成后，就可以进入集群界面看一下集群的当前状况了。

这里可能会出现无法发出查询：对 Service Monitor 的请求超时的错误提示，如果各个组件安装没有问题，一般是因为服务器比较卡导致的，过一会刷新一下页面就好了：

测试

在集群的一台机器上执行以下模拟Pi的示例程序：

sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 100

执行过程需要花一定的时间，通过YARN的后台也可以看到MapReduce的执行状态：

MapReduce执行过程中终端的输出如下：

Number of Maps = 10

Samples per Map = 100

Wrote input for Map #0

Wrote input for Map #1

Wrote input for Map #2

Wrote input for Map #3

Wrote input for Map #4

Wrote input for Map #5

Wrote input for Map #6

Wrote input for Map #7

Wrote input for Map #8

Wrote input for Map #9

Starting Job

14/10/13 01:15:34 INFO client.RMProxy: Connecting to ResourceManager at n1/192.168.1.161:8032

14/10/13 01:15:36 INFO input.FileInputFormat: Total input paths to process : 10

14/10/13 01:15:37 INFO mapreduce.JobSubmitter: number of splits:10

14/10/13 01:15:39 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1413132307582_0001

14/10/13 01:15:40 INFO impl.YarnClientImpl: Submitted application application_1413132307582_0001

14/10/13 01:15:40 INFO mapreduce.Job: The url to track the job: http://n1:8088/proxy/application_1413132307582_0001/

14/10/13 01:15:40 INFO mapreduce.Job: Running job: job_1413132307582_0001

14/10/13 01:17:13 INFO mapreduce.Job: Job job_1413132307582_0001 running in uber mode : false

14/10/13 01:17:13 INFO mapreduce.Job: map 0% reduce 0%

14/10/13 01:18:02 INFO mapreduce.Job: map 10% reduce 0%

14/10/13 01:18:25 INFO mapreduce.Job: map 20% reduce 0%

14/10/13 01:18:35 INFO mapreduce.Job: map 30% reduce 0%

14/10/13 01:18:45 INFO mapreduce.Job: map 40% reduce 0%

14/10/13 01:18:53 INFO mapreduce.Job: map 50% reduce 0%

14/10/13 01:19:01 INFO mapreduce.Job: map 60% reduce 0%

14/10/13 01:19:09 INFO mapreduce.Job: map 70% reduce 0%

14/10/13 01:19:17 INFO mapreduce.Job: map 80% reduce 0%

14/10/13 01:19:25 INFO mapreduce.Job: map 90% reduce 0%

14/10/13 01:19:33 INFO mapreduce.Job: map 100% reduce 0%

14/10/13 01:19:51 INFO mapreduce.Job: map 100% reduce 100%

14/10/13 01:19:53 INFO mapreduce.Job: Job job_1413132307582_0001 completed successfully

14/10/13 01:19:56 INFO mapreduce.Job: Counters: 49

File System Counters

FILE: Number of bytes read=91

FILE: Number of bytes written=1027765

FILE: Number of read operations=0

FILE: Number of large read operations=0

FILE: Number of write operations=0

HDFS: Number of bytes read=2560

HDFS: Number of bytes written=215

HDFS: Number of read operations=43

HDFS: Number of large read operations=0

HDFS: Number of write operations=3

Job Counters

Launched map tasks=10

Launched reduce tasks=1

Data-local map tasks=10

Total time spent by all maps in occupied slots (ms)=118215

Total time spent by all reduces in occupied slots (ms)=11894

Total time spent by all map tasks (ms)=118215

Total time spent by all reduce tasks (ms)=11894

Total vcore-seconds taken by all map tasks=118215

Total vcore-seconds taken by all reduce tasks=11894

Total megabyte-seconds taken by all map tasks=121052160

Total megabyte-seconds taken by all reduce tasks=12179456

Map-Reduce Framework

Map input records=10

Map output records=20

Map output bytes=180

Map output materialized bytes=340

Input split bytes=1380

Combine input records=0

Combine output records=0

Reduce input groups=2

Reduce shuffle bytes=340

Reduce input records=20

Reduce output records=0

Spilled Records=40

Shuffled Maps =10

Failed Shuffles=0

Merged Map outputs=10

GC time elapsed (ms)=1269

CPU time spent (ms)=9530

Physical memory (bytes) snapshot=3792773120

Virtual memory (bytes) snapshot=16157274112

Total committed heap usage (bytes)=2856624128

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=1180

File Output Format Counters

Bytes Written=97

Job Finished in 262.659 seconds

Estimated value of Pi is 3.14800000000000000000

检查Hue

首次登陆Hue会让设置一个初试的用户名和密码，设置好，登陆到后台，会做一次检查，一切正常后会提示：

到这里表明我们的集群可以使用了。

我的Hadoop安装流程相关推荐

大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析
文章目录前言一.创建 Ubuntu 用户二.安装 Java 2.1.查看本地 Java 版本 2.2.验证 Java 在本地的配置情况三.安装 ssh 服务 3.1.安装 openssh-se ...
Hadoop安装教程_分布式集群
安装前的准备伪分布式的设置集群的规划集群的初始设置网络配置 SSH无密码登陆 java及apache环境设置安装流程主机的安装集群的安装效果与验证安装注意模式切换参考资料安装前 ...
ubuntu18.04下hadoop安装与集群配置
ubuntu18.04下hadoop安装与集群配置 hadoop安装_单机/伪分布式配置环境创建hadoop用户更新apt 安装SSH.配置SSH无密码登陆安装Java环境安装 Hadoop ...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
给力星追逐内心的平和首页笔记搜藏代码音乐关于 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 2014-08-09 (updated: 2016 ...
HIVE学习系列——windows Hadoop安装（上）
文章目录整体流程概览 jre环境 jre安装 jre环境变量配置 Hadoop安装与配置官网下载步骤清华镜像下载步骤 Hadooponwindows下载配置系统变量 hadoop初始文件配置 ...
最详细的Hadoop安装教程
最详细的Hadoop安装教程前言 Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远. 这是一篇 ...
超详细 Hadoop 安装（内附ssh免密登录，图文详解，小白必看）
Hadoop 伪分布安装 (内附ssh免密登录,收藏起来看哦) 目录 Hadoop 伪分布安装 (内附ssh免密登录,收藏起来看哦) 一: 安装前准备二: jdk 安装,java环境配置 ...
vue-devTools插件安装流程
vue-devTools插件安装流程本文主要介绍 vue的调试工具 vue-devtools 的安装和使用工欲善其事, 必先利其器, 快快一起来用vue-devtools来调试开发你的vue项目吧 ...
2016cocoapods安装流程及使用
一:参考安装流程:http://blog.csdn.NET/showhilllee/article/details/38398119/. 二:我的安装步骤. 1:安装cocoapods需要ruby,先 ...

我的Hadoop安装流程