大数据分析之Hadoop

一、目标：

1.完成Hadoop的部署和配置
2.正常启动/关闭Hadoop集群，并完成基准测试
3.理解分布式文件系统的设计思想
4.熟练操作Hadoop集群

二、Hadoop的安装与部署

一、切换到root用户：su - root
二、关闭selinux：
vim /etc/selinux/config
SELINUX=disabled

1.将软件包上传到node100（Windows使用xftp上传，Mac使用scp命令上传）

2.配置免密登录
cd 进入hadoop用户的家目录
ssh-keygen -t rsa [输入完后连按4个回车]
ssh node100 [yes，输入hadoop用户的密码]
ssh-copy-id node100 [输入hadoop用户的密码]

3.解压软件包到/opt/module
cd
tar -zxvf ./jdk-8u181-linux-x64.tar.gz -C /opt/module/
tar -zxvf ./hadoop-2.7.3.tar.gz -C /opt/module/
tar -zxvf ./apache-hive-3.1.1-bin.tar.gz -C /opt/module/

4.编辑环境变量：vim ~/.bash_profile
在文件末尾添加
JAVA_HOME=/opt/module/jdk1.8.0_181
HADOOP_HOME=/opt/module/hadoop-2.7.3
HIVE_HOME=/opt/module/apache-hive-3.1.1-bin
PATH=PATH:PATH:PATH:HOME/bin:JAVAHOME/bin:JAVA_HOME/bin:JAVAHOME/bin:HADOOP_HOME/bin:HADOOPHOME/sbin:HADOOP_HOME/sbin:HADOOPHOME/sbin:HIVE_HOME/bin

export JAVA_HOME
export HADOOP_HOME
export HIVE_HOME
export PATH

5.重新加载环境变量
source ~/.bash_profile
java -version
hadoop version

6.修改Hadoop的配置文件：cd /opt/module/hadoop-2.7.3/etc/hadoop

1.vim ./hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181
2.vim ./mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181
3.vim ./yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181
4.vim ./core-site.xml

    <!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://node100:9000</value></property><!-- 指定Hadoop运行时产生文件的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoopdata</value></property>

5.vim ./hdfs-site.xml

    <!-- 指定HDFS副本的数量 --><property><name>dfs.replication</name><value>1</value></property><!-- 指定Hadoop辅助名称节点主机配置 --><property><name>dfs.namenode.secondary.http-address</name><value>node100:50090</value></property>

6.cp ./mapred-site.xml.template ./mapred-site.xml
vim ./mapred-site.xml

<!-- 指定MR运行在yarn上 -->
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>

7.vim ./yarn-site.xml

    <!-- Reducer获取数据的方式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定YARN的ResourceManager的地址 --><property><name>yarn.resourcemanager.hostname</name><value>node100</value></property><!-- 关闭虚拟内存检查 --><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property>

8.vim ./slaves
node100

三、Hadoop基本测试

1.格式化Hadoop集群
在node100这台机器上执行：hdfs namenode -format

2.启动/关闭Hadoop集群
在node100这台机器上执行：start-all.sh
在node100这台机器上执行：stop-all.sh

3.验证启动页面
192.168.5.100:50070
192.168.5.100:8088

4.Hadoop的Wordcount
1.vim word.txt
hello python
hello java
hello scala
hello world
welcome to beijing

2.wordcount测试
hadoop fs -mkdir /test
hadoop fs -put ./word.txt /test
hadoop jar /opt/module/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /test/word.txt /output
hadoop fs -cat /output/part-r-00000

5.hive的安装和基本操作
hive --version
在hdfs上创建hive数据存放目录
hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse
在hive的软件目录下执行初始化命令
bin/schematool -dbType derby -initSchema
初始化成功后就会在hive的安装目录下生成derby.log日志文件和metastore_db元数据库
注意：离开hadoop安全模式 hadoop dfsadmin -safemode leave

MapReduce是一种传统的面向批量任务的处理框架。像Tez这样的新处理引擎越来越倾向于近实时的查询访问。随着Yarn的出现，HDFS正日益成为一个多租户环境，允许很多数据访问模式，例如批量访问、实时访问和交互访问。

四、Hadoop概述

1.Hadoop生态圈
2.Hadoop的组成
Hadoop由三个模块组成：分布式存储HDFS、分布式计算MapReduce、资源调度引擎Yarn

3.HDFS：块级别的分布式文件存储系统
1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等；
2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和
3）Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的块照。

4.MapReduce：分布式计算框架
1）MapReduce是采用一种分而治之的思想设计出来的分布式计算框架；
2）如一复杂的计算任务，单台服务器无法胜任时，可将此大任务切分成一个个小的任务，小任务分别在不同的服务器上并行的执行；最终在汇总每个小任务的结果；
3）MapReduce由两个阶段组成：Map阶段（切分成一个个小的任务）、Reduce阶段（汇总小任务的结果）

5.Yarn：分布式资源管理器

五、Hadoop的shell操作

1.启动/关闭Hadoop集群
在主节点上：start-all.sh/stop-all.sh
2.查看HDFS的文件和目录
Hadoop fs -ls -R /
3.在HDFS上创建文件夹
Hadoop fs -mkdir -p /test/wuyilaodongjie
4.上传文件
Hadoop fs -put source（本地文件路径） dest（HDFS路径）
5.下载文件
Hadoop fs -get source（HDFS路径）dest（本地文件路径）
6.删除文件
Hadoop fs -rm HDFS文件路径 Hadoop fs -rm -r HDFS目录路径
7.查看文件内容
hadoop fs -cat HDFS文件路径
8.查看集群的工作状态
hdfs dfsadmin -report

六、虚拟机的基本配置

首先，切换到root用户
su - root

1.关闭防火墙和禁止防火墙自启动
systemctl stop firewalld.service
systemctl disable firewalld.service

2.配置时间自动同步：crontab -e
*/5 * * * * /usr/sbin/ntpdate ntp1.aliyun.com

3.修改/etc/hosts文件：vim /etc/hosts
192.168.5.100 node100
192.168.5.101 node101
192.168.5.102 node102

4.在/opt下创建module目录，并修改它的所有者和所属组为hadoop
cd /opt
mkdir module
chgrp hadoop module
chown hadoop module

5.配置ip地址：vim /etc/sysconfig/network-scripts/ifcfg-ens33
第四行修改为BOOTPROTO=“static”

6.重启网卡:systemctl restart network