搭建Hadoop开发环境(全过程)
文章目录
- 一、VMware环境准备
- 1.安装VMware
- 2.配置网络
- 二、配置Java Hadoop环境
- 1.xftp连接虚拟机
- 2.上传java hadoop压缩包到虚拟机
- 3.配置环境变量
- 三、完全分布式
- 1.修改配置文件
- 2.克隆虚拟机
- 3.设置主机名
- 4.修改网络地址
- 5.配置映射关系
- 6.免密登录
- 7.配置节点
- 8.格式化虚拟机
- 9.启动hadoop
- 三、Hadoop测试
- 1.初识Hadoop目录
- 2.hadoop管理界面
- 3.WordCount 案例
一、VMware环境准备
1.安装VMware
在官网下载安装包安装好VMware,输入密钥,激活软件(密钥可以在网上可以在网上搜索)
新建虚拟机
选择Linux操作系统和centos7版本
给虚拟机命名
配置虚拟机磁盘 设置虚拟机最大磁盘大小20GB
在自定义硬件中给虚拟机安装centos-7-x86-64-minimal-1708.ios映像文件
查看虚拟机信息 完成安装!开始安装centos
配置虚拟机
设置root密码 创建用户
完成安装
输入刚刚设置的用户名 密码就可以登录了
2.配置网络
获取root
关闭防火墙
systemctl status firewalld //查看防火墙
systemctl stop firewalld //停止防火墙
systemctl disable firewalld //彻底关闭防火墙
关闭selinux防火墙:
vi /etc/sysconfig/selinux
先把SELINUX改为disable
按“i”进入编辑模式 更改之后按esc键退出编辑模式 然后输入“:wq”保存后退出
通过配置ip地址 网关 子网掩码 ,主机虚拟网卡VMware network adapter vmware8 连接到vmnet8虚拟机交换机上,然后VMware虚拟机NET模式借助虚拟NET设备和虚拟HDCP服务器,使得虚拟机可以联网
设置VMware Network Adapter VMnet8 的ipv4
设置VMware网络
vi /etc/sysconfig/network-scripts/ifcfg-ens33 //设置VMware主机IP地址
改为:
BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.100.10
NETMASK=255.255.255.0
GATEWAY=192.168.100.20
DNS1=8.8.8.8
BOOTPROTO:是获取的ip地址类型,static和none为静态地址。dhcp为静止获取IP地址。
ONB:设置网卡是否在Linux系统启动时激活,一般设置为yes
IPADDR=本机IP地址
NETMASK:子网掩码
GATEWAY:网关
DNS1:首选DNS服务器
service network restart //重启网络
通过ping baidu.com检测外网环境
ping 虚拟机ip地址检测内部网络环境
二、配置Java Hadoop环境
1.xftp连接虚拟机
2.上传java hadoop压缩包到虚拟机
sudo chmod 777 /opt //将opt目录权限修改为可读可写可执行
通过xftp软件直接将java hadoop压缩包复制到虚拟机的/opt目录下
在当前目录下执行命令
tar -zxvf 压缩包名称
分别解压jdk和hadoop文件到当前目录下
rm -rf 文件名 //删除压缩包
mv 文件名 修改成的文件名
删除压缩包 然后重命名文件为 hadoop jdk
3.配置环境变量
vi /etc/profile //配置java hadoop 环境变量
在文件的最下面配置环境变量:
## set java environment
export JAVA_HOME=/opt/jdk
export PATH=$PATH:$JAVA_HOME/bin
##set hadoop environment
export HAOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile //使刚刚配置的文件生效
java -version
hadoop version //查看环境
完成安装!
三、完全分布式
1.修改配置文件
hadoop-env.sh
sudo chmod 777 /opt/hadoop/etc/hadoop/hadoop-env.sh //将目录权限修改为可读可写可执行
然后在xftp里面的/opt/hadoop/etc/hadoop目录下进行操作,鼠标右键用文档编辑器hadoop-env.sh文件 然后直接在#the java implement to use 下面改为export JAVA_HOME=/opt/jdk(在虚拟机安装的jdk目录)然后保存!
export JAVA_HOME=/opt/jdk
core-site.xml
跟上面的操作一样 在虚拟机先输入命令获取每个文件的权限先,再在xftp软件中直接修改相应的文件,在文件的configuration /configuration中添加文件(中文注释的不要复制进去):
<property><name>fs.defaultFS</name><value>hdfs://xwgmaster:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件存放目录 -->
<property><name>hadoop.tmp.dir</name><value>/opt/hadoop/hadoopdata</value>
</property>
然后去虚拟机创建目录
mkdir /opt/hadoop/hadoopdata //创建目录
下面的三个文件跟上面的操作一样 先在虚拟机输入命令获取相应文件名的权限 再直接在xftp软件中直接修改文件就可以了
hdfs-site.xml
<!—hadoop集群默认的副本数量是3 但是现在只是在单节点上进行伪分布式安装 无需保存3个副本 该属性的修改值为1 --><property><name>dfs.replication</name><value>1</value>
</property>
mapred-site.xml
先修改文件名:
mv mapred-site.xml.template mapred-site.xml
<!—Mapreduce是运行在yarn架构上的 需要进行特别声明-->
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>
yarn-site.xml
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
<property><name>yarn.resourcemanager.address</name><value>master:18040</value>
</property>
<property><name>yarn.resourcemanager.scheduler.address</name><value>master:18030</value>
</property>
<property><name>yarn.resourcemanager.resource-tracker.address</name><value>master:18025</value>
</property>
<property><name>yarn.resourcemanager.admin.address</name><value>master:18141</value>
</property>
<property><name>yarn.resourcemanager.webapp.address</name><value>master:18088</value>
</property>
2.克隆虚拟机
右键虚拟机-管理-克隆-下一步:
3.设置主机名
vi /etc/sysconfig/network //设置主机名
NETWORK=yes
HOSTNAME=主机名
vi /etc/hostname
主机名
重置虚拟机就可以显示修改成的主机名了
其它两台虚拟机主机名设置为xwgslave1 xwgslave2
4.修改网络地址
将xwgslave xwgslave的IP地址 分别更改为
192.168.100.111
192.168.100.112
service network restart //每次设置完都要重置一下网络
5.配置映射关系
通过修改主机名和ip地址 使虚拟机通过计算机名也可以进行网络访问(三个虚拟机都要设置)
vi etc/hosts
6.免密登录
ssh-keygen -t rsa //生成密钥
cd /root/.ssh
ll -a //在该目录下查看隐藏文件
ssh-copy-id -i id_rsa.pub root@主机名 将密钥发送到目标主机
ssh-copy-id -i id_rsa.pub root@xwgmaster
ssh-copy-id -i id_rsa.pub root@xwgslave1
ssh-copy-id -i id_rsa.pub root@xwgslave2
7.配置节点
在master配置节点
/opt/hadoop/etc/hadoop下的slaves文件
输入:
xwgmaster
xwgslave1
xwgslave2
8.格式化虚拟机
在xwgmaster中格式化系统
hadoop namenode-format
9.启动hadoop
start-all.sh
然后在三台虚拟机输入jps查看是否有节点显示:
成功!!!
三、Hadoop测试
1.初识Hadoop目录
通过xftp可以看到远程虚拟机的hadoop目录
2.hadoop管理界面
在浏览器输入外网ip加端口号(http://192.168.56.210:50070)就可以登录hadoop管理页面 查看hdfs集群信息
3.WordCount 案例
在虚拟机实现文件上传 利用jar包统计单词计数的功能
测试hdfs和mapreduce(hadoop的两大核心模块)
先在虚拟机本地创建文件:
cd /opt/hadoop //先进入hadoop目录下
ls //查看该目录下的文件
mkdir 文件夹名 //创建一个新文件夹
touch 文件名//创建一个新文件
vi 文件名 //对文件进行编辑
按i进入编辑模式 输入单词 然后按esc退出编辑 输入“:wq”保存后退出
将centos的本地文件上传到hdfs:
Hadoop fs -put /opt/Hadoop/test/wcinput /
//Hadoop fs -put 上传指令 目标文件地址 上传的目标地址
然后再进入/opt/hadoop目录:
bin/Hadoop jar share/Hadoop/mapreduce/Hadoop-mapreduce-examples-2.7.2.jar wordcount /wcinput /wcoutput
生成了一个名为wcoutput的文件
然后在虚拟机执行:
Hadoop fs -cat /wcoutput/part-r-00000
搭建Hadoop开发环境(全过程)相关推荐
- 在ubuntu下使用Eclipse搭建Hadoop开发环境
一.安装准备 1.JDK版本:jdk1.7.0(jdk-7-linux-i586.tar.gz) 2.hadoop版本:hadoop-1.1.1(hadoop-1.1.1.tar.gz) 3.ecli ...
- java 工程新建ivy文件_Hadoop学习之路(八)在eclispe上搭建Hadoop开发环境
一.添加插件 将hadoop-eclipse-plugin-2.7.5.jar放入eclipse的plugins文件夹中 二.在Windows上安装Hadoop2.7.5 版本最好与Linux集群中的 ...
- hadoop启动_Mac OS X 上搭建 Hadoop 开发环境指南
Hadoop 的配置有些麻烦,目前没有一键配置的功能,虽然当时我在安装过程中也参考了有关教程,但还是遇到了很多坑,一些老版本的安装过程已不适用于 hadoop2.x,下面就介绍一下具体步骤. 安装 J ...
- Mac OS X 上搭建 Hadoop 开发环境指南
Hadoop 的配置有些麻烦,目前没有一键配置的功能,虽然当时我在安装过程中也参考了有关教程,但还是遇到了很多坑,一些老版本的安装过程已不适用于 hadoop2.x,下面就介绍一下具体步骤. 安装 J ...
- Eclipse下搭建Hadoop开发环境,并运行第一个实例
有同学无法正常运行程序,这里将Eclipse下Hadoop环境配置进行一下说明: 1.新建Map/Reduce工程 2.设置Hadoop Locaiton,第一次使用的话,点击大象,新建配置. 3.设 ...
- 搭建hadoop开发环境--基于xp+cygwin
2019独角兽企业重金招聘Python工程师标准>>> 1.安装cygwin 参考博文:http://hi.baidu.com/%BD%AB%D6%AE%B7%E7_%BE%B2%D ...
- 配置HADOOP开发环境
考虑到Windows平台尽管界面友好,但Hadoop环境配置较"怪异",需借助cygwin,这个过程并不优雅.正好我手上另有一套ubuntu环境,用着也很顺手,就在ubuntu中安 ...
- Hadoop完全分布式搭建过程、maven和eclipse配置hadoop开发环境、配置Map/Reduce Locations、简单wordcount测试!
Hadoop完全分布式搭建及测试 项目开始前准备工作 1.下载并安装VM workstation pro 15安装包,这里选择: VMware-workstation-full-15.1.0-1359 ...
- Intellij搭建spark开发环境
spark怎么学习呢?在一无所知的前提下,首先去官网快速了解一下spark是干什么的,官网在此.然后,安装开发环境,从wordcount开始学习.第三,上手以后可以学习其他算法了.最后,不要放弃,继续 ...
- mac搭建python开发环境_Mac打造python2 python3开发环境
最新版的MacOS Sierra默认带的python环境仍然为2.7.10,本文将介绍使用Brew安装python3.5并做简单的配置,打造python2,python3共存的开发环境 直接尝试bre ...
最新文章
- 转:Jquery AJAX POST与GET之间的区别
- 通过IP获取地址,限制某些地址访问(GeoIp)
- Bootstrap link 引入3文件
- VTK:二次可视化用法实战
- linux监控命令详解
- Dubbo核心源码之SPI扩展
- 哈希表实现电话号码查询系统
- 计算机打音乐醉赤壁,抖音确认过眼神我遇上对的人是什么歌,醉赤壁歌曲介绍...
- App上架安卓应用市场最全指南
- [渝粤教育] 中国地质大学 建筑艺术赏析 复习题
- 修复BUG的完整过程:Ignored attempt to cancel a touchend event with cancelable=false
- shell 一些好玩的技巧.
- 利用百度ocr识别验证码
- 怎样开启成功的“数据分析师”职业生涯(R、Python、机器学习、通信和数据可视化、数据直觉)
- 视频直播推流技术(MediaCodec硬编码+libRTMP,编码器),Demo - Android
- NLP学习(二)—中文分词技术
- 他励直流电机 | 根据铭牌参数估算结构参数
- 正则表达式 REGEXP_REPLACE
- 【推荐】2022年公用事业行业研究报告产业发展前景市场投资行情分析白皮书(附件中为网盘地址,报告持续更新)
- java发展前景选兄弟连_对于Java你了解多少 兄弟连带你了解Java开发工程师现状...