有一天心血来潮突然有个大胆的想法，就是将我平时所学的技术记录成文档，这些文档可能网上一搜一大把，但毕竟和自己总结摘录的还是不太一样，不求文章能有人看，就当给自己做个备忘录吧，上面两节介绍了做大数据的基本环境配置，今天正式介绍一下大数据技术的基石-Hadoop

文章目录

第1章大数据概论
- 1.1 大数据概念
- 1.2 大数据特点
第2章从Hadoop框架讨论大数据生态
- 2.1 Hadoop是什么
- 2.2 Hadoop发展历史
- 2.3 Hadoop三大发行版本
- 2.4 Hadoop的优势
- 2.5 Hadoop组成
第3章 Hadoop运行环境搭建
- 3.1 在hadoop101安装JDK
- 3.2 在hadoop101安装Hadoop
- 3.3 Hadoop目录结构
第4章 Hadoop运行模式
- 4.1 本地运行模式（官方wordcount）
- 4.2 完全分布式运行模式
- 4.2.1 SSH无密登录配置
- 4.2.2 集群配置
- 4.2.3 编写集群分发脚本xsync
- 4.2.4 群起集群
- 4.2.5 编写hadoop集群常用脚本
第5章常见错误及解决方案
总结

第1章大数据概论

1.1 大数据概念

据百度百科介绍：
大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

1.2 大数据特点

大数据的特点可以归总为4V即：Volume（大量）、Velocity(高速)、Variety(多样)、Value(低价值密度)
看着挺厉害的，不过就我理解，就是数据量大，而且好多数据单独来看没什么用，需要加工处理

第2章从Hadoop框架讨论大数据生态

2.1 Hadoop是什么

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2）主要解决，海量数据的存储和海量数据的分析计算问题。
3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

2.2 Hadoop发展历史

1）Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。

2）2001年年底Lucene成为Apache基金会的一个子项目。

3）对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢。

4）学习和模仿Google解决这些问题的办法：微型版Nutch。

5）可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

GFS —>HDFS

Map-Reduce —>MR

BigTable —> HBase

6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。

7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。

8）2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入到 Hadoop 项目中，Hadoop就此正式诞生，标志着大数据时代来临。

9）名字来源于Doug Cutting儿子的玩具大象。

2.3 Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。
Apache版本最原始（最基础）的版本，对于入门学习最好。
Cloudera内部集成了很多大数据框架。对应产品CDH。
Hortonworks文档较好。对应产品HDP。

1）Apache Hadoop
官网地址：http://hadoop.apache.org/releases.html
下载地址：https://archive.apache.org/dist/hadoop/common/
2）Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/
（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。
（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support
（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。
3）Hortonworks Hadoop
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform
（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。
（3）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。
（4）Hortonworks目前已经被Cloudera公司收购。

2.4 Hadoop的优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
4）高容错性：能够自动将失败的任务重新分配。

2.5 Hadoop组成

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。后面的文章会对起组成在做深入介绍，暂且了解即可

第3章 Hadoop运行环境搭建

在上面两节我们已经配置好了三台虚拟机，接下来就开始愉快的玩耍吧

3.1 在hadoop101安装JDK

文章中提到的所有安装包都在此链接：
https://pan.baidu.com/s/1frlvq4XWwvIWU4461XUkrQ?pwd=yyds

1）卸载现有JDK

[careate@hadoop101 ~]$ rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

2）用XFTP工具将JDK导入到opt目录下面的software文件夹下面
3）解压JDK到/opt/module目录下

[careate@hadoop101 software]$ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

4）配置JDK环境变量
（1）新建/etc/profile.d/my_env.sh文件

[careate@hadoop101 ~]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin

（2）保存后退出

:wq

（3）source一下/etc/profile文件，让新的环境变量PATH生效

[careate@hadoop101 ~]$ source /etc/profile

8）测试JDK是否安装成功

[careate@hadoop101 ~]$ java -version
java version “1.8.0_212”

3.2 在hadoop101安装Hadoop

1）用XFTP工具将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面

2）解压安装文件到/opt/module下面

[careate@hadoop101 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

3）将Hadoop添加到环境变量
（1）获取Hadoop安装路径

[careate@hadoop101 hadoop-3.1.3]$ pwd
/opt/module/hadoop

（2）打开/etc/profile.d/my_env.sh文件

sudo vim /etc/profile.d/my_env.sh

在my_env.sh文件末尾添加如下内容：（shift+g）

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin
export PATH= P A T H : PATH: PATH:HADOOP_HOME/sbin

（3）保存后退出

:wq

（4）让修改后的文件生效

[careate@hadoop101 hadoop-3.1.3]$ source /etc/profile

6）测试是否安装成功

[careate@hadoop101 hadoop-3.1.3]$ hadoop version
Hadoop 3.1.3

3.3 Hadoop目录结构

1）查看Hadoop目录结构

[careate@hadoop101 hadoop-3.1.3]$ ll
总用量 52
drwxr-xr-x. 2 careate careate 4096 5月 22 2017 bin
drwxr-xr-x. 3 careate careate 4096 5月 22 2017 etc
drwxr-xr-x. 2 careate careate 4096 5月 22 2017 include
drwxr-xr-x. 3 careate careate 4096 5月 22 2017 lib
drwxr-xr-x. 2 careate careate 4096 5月 22 2017 libexec
-rw-r–r–. 1 careate careate 15429 5月 22 2017 LICENSE.txt
-rw-r–r–. 1 careate careate 101 5月 22 2017 NOTICE.txt
-rw-r–r–. 1 careate careate 1366 5月 22 2017 README.txt
drwxr-xr-x. 2 careate careate 4096 5月 22 2017 sbin
drwxr-xr-x. 4 careate careate 4096 5月 22 2017 share

2）重要目录
（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
（4）sbin目录：存放启动或停止Hadoop相关服务的脚本
（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

第4章 Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。
Hadoop官方网站：http://hadoop.apache.org/

4.1 本地运行模式（官方wordcount）

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

[careate@hadoop101 hadoop-3.1.3]$ mkdir wcinput

2）在wcinput文件下创建一个word.txt文件

[careate@hadoop101 hadoop-3.1.3]$ cd wcinput

3）编辑word.txt文件

[careate@hadoop101 wcinput]$ vim word.txt

在文件中输入如下内容

hadoop yarn
hadoop mapreduce
careate
careate

保存退出：：wq
4）回到Hadoop目录/opt/module/hadoop
5）执行程序

[careate@hadoop101 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

6）查看结果

[careate@hadoop101 hadoop-3.1.3]$ cat wcoutput/part-r-00000

看到如下结果：

careate 2
hadoop 2
mapreduce 1
yarn 1

4.2 完全分布式运行模式

4.2.1 SSH无密登录配置

1）配置ssh
（1）基本语法
ssh另一台电脑的ip地址
（2）ssh连接时出现Host key verification failed的解决方法

[careate@hadoop101 ~]$ ssh hadoop102

出现：
The authenticity of host ‘192.168.1.103 (192.168.1.103)’ can’t be established.
RSA key fingerprint is cf:1e

大数据再出发-03hadoop入门相关推荐

大数据再出发-19Flink
大数据再出发-19Flink 今天来一起学习一下flink,一个真正意义上的流处理框架,之前学的sparkstreaming那是个微批处理的框架,今天学的flink是基于事件的实时处理框架. 文章目录 ...
大数据再出发-07Hive
大数据再出发-07Hive 前面篇文章写了有关Hadoop的相关知识,但是要想将这个系统用起来还要写maoreduce程序,开发太麻烦了,所以今天来学一下Hive,hive支持sql语法,大家可以通过 ...
大数据学习指南从入门到精通
目录大数据学习指南从入门到精通前言一.大数据基础二.大数据必学Java基础三.ZooKeeper 四.大数据环境搭建五.Hadoop 六.Hive 七.HBase 八.Kafka 九.Sc ...
大数据竞赛平台——Kaggle 入门
大数据竞赛平台--Kaggle 入门篇这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本 ...
大数据技术之Canal入门篇
大数据技术之Canal入门篇文章目录大数据技术之Canal入门篇写在前面第 1 章 Canal 入门 1.1 什么是 Canal 1.2 MySQL 的Binlog 1.2.1 什么是 Bin ...
大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
大数据学习之HBase入门笔记
文章目录一.HBase简介 1.1.HBase定义 1.2.HBase数据模型 1.2.1.HBase逻辑结构 1.2.2.物理存储结构 1.2.3.数据模型 1.3.HBase基础架构(入门版) ...
大数据hadoop新手快速入门视频教程 Hadoop学习视频教程
最新在学习hadoop .storm大数据相关技术,发现网上hadoop .storm 相关学习视频少之又少,我这里整理了hadoop学习视频,给大家学习. 视频下载地址:http://demo.li ...
大数据技术——Hadoop3.X入门搭建+安装调优（1.入门）
文章目录一.大数据概论二.Hadoop概述三.Hadoop 运行环境搭建 (开发重点) 3.1 模板虚拟机环境准备 3.2 克隆虚拟机 3.3 在hadoop102安装JDK 3.4 在had ...

大数据再出发-03hadoop入门

文章目录

第1章大数据概论

1.1 大数据概念

1.2 大数据特点

第2章从Hadoop框架讨论大数据生态

2.1 Hadoop是什么

2.2 Hadoop发展历史

2.3 Hadoop三大发行版本

2.4 Hadoop的优势

2.5 Hadoop组成

第3章 Hadoop运行环境搭建

3.1 在hadoop101安装JDK

3.2 在hadoop101安装Hadoop

3.3 Hadoop目录结构

第4章 Hadoop运行模式

4.1 本地运行模式（官方wordcount）

4.2 完全分布式运行模式

4.2.1 SSH无密登录配置

大数据再出发-03hadoop入门相关推荐

最新文章

热门文章

大数据再出发-03hadoop入门

文章目录

第1章 大数据概论

1.1 大数据概念

1.2 大数据特点

第2章 从Hadoop框架讨论大数据生态

2.1 Hadoop是什么

2.2 Hadoop发展历史

2.3 Hadoop三大发行版本

2.4 Hadoop的优势

2.5 Hadoop组成

第3章 Hadoop运行环境搭建

3.1 在hadoop101安装JDK

3.2 在hadoop101安装Hadoop

3.3 Hadoop目录结构

第4章 Hadoop运行模式

4.1 本地运行模式（官方wordcount）

4.2 完全分布式运行模式

4.2.1 SSH无密登录配置

大数据再出发-03hadoop入门相关推荐

最新文章

热门文章

第1章大数据概论

第2章从Hadoop框架讨论大数据生态