Hadoop入门（一）概念与单机安装

一、hadoop的概念

（1）什么是大数据

　　大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

（2）hadoop的定义

　　Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

　　Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

二、前置条件

vmvare10，ubuntu14

（1）Linux apt sources 使用aliyun镜像

sudo su
gedit /etc/apt/sources.list 注释所有内容
增加 /etc/apt/sources.list.d/00mirrors.aliyun.com.list
# aliyun
deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
#更新
apt-get update

（2）Linux 安装 ssh (server 和 client)

sudo su
apt-get install ssh
#登录检验ssh
ssh -l mk localhost
#退出ssh
exit

三、Hadoop单机安装（Ubuntu14版）

在用户mk，jdk和Hadoop安装路径/home/mk/soft/

1、安装配置jdk

A、在线安装：

B、离线安装　

1)下载jdk-7u80-linux-x64.tar.gz

　　下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

　　把离线包拷入到ubuntu的当前用户mk的soft文件夹下,然后执行命令安装。

2)执行命令

mkdir ~/soft
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ soft/jdk1.7.0_80

C、配置JDK环境变量JAVA_HOME

安装完jdk后，需要配置环境变量，把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

1）配置环境变量

执行命令（后面java.sh不要有空格，如‘java.sh ’，否则读不了配置文件）

sudo gedit /etc/profile.d/java.sh

打开/etc/profile.d/java.sh文件在文件中添加如下配置

export JAVA_HOME=/home/mk/soft/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

注意：写配置值时，export语句的内容里面不要换行

2）验证配置

（1）使profile文件修改配置生效
　　执行命令：source /etc/profile

或者注销再登录当前用户

执行命令：sudo reboot

（2）验证java质量

执行命令 :java -version

2、安装hadoop

A、下载解压hadoop安装包

下载hadoop安装包hadoop-2.6.0.tar.gz

下载路径：http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

B、拷贝到hadoop用户目录中,执行命令进行安装

　执行命令　

tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 soft/

C、修改hadoop环境变量配置

　执行命令（后面hadoop.sh不要有空格，如‘hadoop.sh ’，否则读不了配置文件）
　

sudo gedit /etc/profile.d/hadoop.sh

hadoop.sh的内容

export HADOOP_HOME=/home/mk/soft/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

注意：写配置值时，export语句的内容里面不要换行

D、验证配置

　1）使hadoop命令配置生效

　　　执行命令：source /etc/profile

　　或注销再登录当前用户

2）验证:
　　hadoop version

3、启动Hadoop

A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录，查看配置文件
执行命令： cd soft/hadoop-2.6.0/etc/hadoop/
列出配置文件： ls

B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件，修改参数信息

执行命令：

cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh

修改文件里面的export JAVA_HOME=${JAVA_HOME}为

export JAVA_HOME=/home/mk/soft/jdk1.7.0_80

C、测试Hadoop环境可用性

　　执行命令：hadoop

三、测试例子

题目：使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计

执行命令：

#切换到用户目录cd /home/mk/#在用户目录下创建input目录mkdir input#复制hadoop的配置文件进入inputcp $HADOOP_HOME/etc/hadoop/*.xml input/#统计input目录里面的以dfs前缀的单词，保存结果在output目录hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'#输出output目录的结果cat output/*

结果：