Hadoop入门(一)概念与单机安装
一、hadoop的概念
(1)什么是大数据
大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。
(2)hadoop的定义
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
二、前置条件
vmvare10,ubuntu14
(1)Linux apt sources 使用aliyun镜像
sudo su
gedit /etc/apt/sources.list 注释所有内容
增加 /etc/apt/sources.list.d/00mirrors.aliyun.com.list
# aliyun
deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
#更新
apt-get update
(2)Linux 安装 ssh (server 和 client)
sudo su
apt-get install ssh
#登录检验ssh
ssh -l mk localhost
#退出ssh
exit
三、Hadoop单机安装(Ubuntu14版)
在用户mk,jdk和Hadoop安装路径/home/mk/soft/
1、安装配置jdk
A、在线安装:
B、离线安装
1)下载jdk-7u80-linux-x64.tar.gz
下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html
把离线包拷入到ubuntu的当前用户mk的soft文件夹下,然后执行命令安装。
2)执行命令
mkdir ~/soft
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ soft/jdk1.7.0_80
C、配置JDK环境变量JAVA_HOME
安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。
1)配置环境变量
执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)
sudo gedit /etc/profile.d/java.sh
打开/etc/profile.d/java.sh文件在文件中添加如下配置
export JAVA_HOME=/home/mk/soft/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
注意:写配置值时,export语句的内容里面不要换行
2)验证配置
(1)使profile文件修改配置生效
执行命令:source /etc/profile
或者注销再登录当前用户
执行命令:sudo reboot
(2)验证java质量
执行命令 :java -version
2、安装hadoop
A、下载解压hadoop安装包
下载hadoop安装包hadoop-2.6.0.tar.gz
下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
B、拷贝到hadoop用户目录中,执行命令进行安装
执行命令
tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 soft/
C、修改hadoop环境变量配置
执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
sudo gedit /etc/profile.d/hadoop.sh
hadoop.sh的内容
export HADOOP_HOME=/home/mk/soft/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
注意:写配置值时,export语句的内容里面不要换行
D、验证配置
1)使hadoop命令配置生效
执行命令:source /etc/profile
或注销再登录当前用户
2) 验证:
hadoop version
3、启动Hadoop
A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
列出配置文件: ls
B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息
执行命令:
cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh
修改文件里面的export JAVA_HOME=${JAVA_HOME}为
export JAVA_HOME=/home/mk/soft/jdk1.7.0_80
C、测试Hadoop环境可用性
执行命令 :hadoop
三、测试例子
题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计
执行命令:
#切换到用户目录cd /home/mk/#在用户目录下创建input目录mkdir input#复制hadoop的配置文件进入inputcp $HADOOP_HOME/etc/hadoop/*.xml input/#统计input目录里面的以dfs前缀的单词,保存结果在output目录hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'#输出output目录的结果cat output/*
结果:
Hadoop入门(一)概念与单机安装相关推荐
- hadoop入门学习教程--DKHadoop完整安装步骤
使用hadoop版本是DKH标准三节点发行版,DKHadoop版本的易用性比较好,环境部署要简单的多,参考此篇安装前请先下载DKHadoop版本,网盘链接:https://pan.baidu.com/ ...
- Hadoop 入门 云计算概念
对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的. 记录的过程通过提问的方式进行,当然回答的准确性有待讨论. 云是什么? 云是网络.互联网的一种比喻说法. ...
- Hadoop入门(上):大数据特点、大数据前景、大数据组织结构、Hadoop组成、Hadoop版本介绍、Hadoop运行环境搭建、CentOS6安装JDK、安装Hadoop、Hadoop目录结构
资料来源于尚硅谷 本篇文章目录 第1章·大数据概论 1.1.大数据概念. 1.2.大数据特点(4V) 1.3.大数据应用场景 1.4.大数据发展前景 1.5·大数据部门业务流程分析. 1.6·大数据部 ...
- Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法
Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法 环境说明 系统:ubuntu18.04 主机名:test1 用 ...
- Hadoop入门基础教程 Hadoop之单机模式搭建
单机模式所需要的系统资源是最少的,这种安装模式下,Hadoop的core-site.xml.mapred-site.xml.hdfs-site.xml配置文件均为空.默认情况下,官方hadoop-1. ...
- Hadoop入门概念
这里写自定义目录标题 1. 概述 1.1 简介 1.2 安装部署 1.3 启动&关闭 2. HDFS 2.1 概述 2.2 HDFS Shell操作 2.3 节点概述 2.4 HDFS写数据流 ...
- linux spark单节点环境搭建,Linux下基于Hadoop的Spark1.2单机安装
一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Hadoop:Hadoop2.6,Hadoop2. ...
- 单机安装 hadoop 环境(Hadoop伪分布式安装)
任务描述: 作为某公司运维工程师,需在单机安装 hadoop 环境(Hadoop伪分布式安装).本环节需要使用 root用户完成相关配置,具体部署要求如下: 1. 关闭虚拟机防火墙 2. 修改&quo ...
- hadoop入门-在windows上安装,测试hadoop
上一篇简单叙述了怎么样在windows上编译hadoop,接着上一篇,这篇叙述怎么样安装hadoop并进行简单的验证安装是否正确.编译的机器与安装的机器分开. 我编译的机器是windows7,安装的机 ...
最新文章
- 教程 | 如何在手机上使用TensorFlow
- ibatis动态查询条件(转载待完善)
- viewpager 无网络的时候滑动异常
- vue-i18n国际化实例
- vue rem移动端适配
- Linux下自动备份Oracle数据库并删除指定天数前的备份
- 获取汉字首字母,拼音,可实现拼音字母搜索----npm js-pinyin
- 【 地图系列 】 中国各省市县级 JSON 文件
- Unity游戏建议对话功能 Fungus插件。
- 《大话数据结构》第一章 数据结构绪论
- vue 强制清除浏览器缓存
- Markov blanket 马尔科夫毯子
- 【玩转ESP32】17、PWM调光
- Error mounting /dev/sda7 at 解决方法
- 电子游戏设计与制作 第六章 游戏中的人工智能
- Android使用DX工具
- 1949-2020年各省全要素生产率(年度)
- FastCGI sent in stderr: PHP message: PHP Fatal error: Call to undefined function __() in
- 金融业运维体系指南-嘉为蓝鲸
- 压缩感知——沃尔什-哈达玛(WHT)变换与逆变换的Matlab代码实现
热门文章
- [Java基础]SimpleDateFormat类基础
- DDIA笔记——数据复制
- php7 ast,PHP7新特性之抽象语法树(AST)带来的变化详解
- 520 钻石争霸赛 7-8浪漫侧影(二叉树的遍历)
- ImportError: libicui18n.so.56 and/or libicui18n.so.58 when importing cv2
- Battlestation Operational HDU 6134
- P4151 [WC2011]最大XOR和路径(线性基应用)
- 杜教筛模板(P4213 【模板】杜教筛(Sum))
- D - Maximum Value Problem FZU - 2037
- 【CF1307F】Cow and Vacation(并查集+lca倍增)