WIN10环境下配置hadoop+spark并运行实例的教程
WIN10环境下配置 hadoop + spark 并运行开发实例的教程
- 前期准备
- 基本环境配置
- 虚拟机的安装
- 配置虚拟机中的静态网络
- 关闭并禁用防火墙
- 配置主机名
- 编辑host文件
- 使用ssh传输文件
- SSH免密配置
- 解压文件
- 配置文件
- 配置JDK
- 配置hadoop中的文件
- 配置scala、spark和hadoop环境变量(s1和s2也要)
- 格式化hadoop(在master上进行)
- 启动hadoop&spark
- 启动hadoop 并运行实例
- 启动spark,并运行实例
前期准备
基本环境配置
系统:windows 10
电脑基本配置
需要用到的软件
百度网盘链接:
链接: https://pan.baidu.com/s/1D3MScCEXlk2h9rlzUc__fw.
提取码:1111
复制这段内容后打开百度网盘手机App,操作更方便哦–来自百度网盘超级会员V3的分享
虚拟机管理软件:
VMware-workstation-full-15.5.6-16341506.exe
Linux系统:
CentOS-7-x86_64-DVD-2003
ssh软件:
Xshell-7.0.0065p.exe
hadoop版本:
hadoop-2.7.7.tar.gz
jdk版本:
jdk-8u171-linux-x64.tar.gz
scala版本:
scala-2.12.11.tgz
spark版本:
spark-3.0.2-bin-hadoop2.7.tgz
虚拟机的安装
我们需要三台虚拟机:
主机 master
从机1 s1
从机2 s2
下面开始安装虚拟机
打开界面,点击编辑,打开虚拟网络编辑器
点击红色箭头所指向的位置
点击创建虚拟机
点击下一步
选择2003版本
选择安装位置,注意名字要改一下我的是master
主机设置40GB,两个从机设置30GB
点击完成
进入到这个界面
按回车安装,进入到该界面
点击继续先选择软件选择,再选择安装位置
选择GNOME桌面
点击完成后推出再点击安装位置,点击磁盘,再点击完成
点击完成后,在界面选择开始安装,设置密码 建议123456 或者 简单一些的
在此界面下等待安装成功
点击重启
接受许可证
打开网络连接
不用点击配置,直接点击完成配置,进入界面
在进入图形化界面时,会让我们注册一个用户,不用担心,我们只是使用root用户登录
用户名:root
密码:123456 (你设置的密码)
这里我们是以hjk登录的,我们可以重启并选择root用户登录
到这里,我们master主机就安装成功啦
同样地,修改名字,其他都一样,配置好s1,s2
配置虚拟机中的静态网络
打开虚拟机master,打开终端
测试网络连接
打开终端,输入以下代码,
1.进入相应目录
cd /etc/sysconfig/network-scripts/
2.编辑要修改的文件
vi ifcfg-ens33
按 i 编辑
第一个改为静态,后面四个按照自己电脑的实际情况来做
IPADDR:
我的是192.168.50.0 , 注意最后的数字可以修改成自己喜欢的数字
我的是
主机master
IPADDR:192.168.50.10
NETMASK:
GATEWAY:
每个人的电脑都不一样
DNS1:我选择的是公用的百度DNS
180.76.76.76
全部修改好以后,按ESC退出编辑,再按 Shift + ;输入wq保存退出
将网络服务重启
service network restart
再次测试网络连接
关闭并禁用防火墙
关闭
systemctl stop firewalld
禁用
systemctl stop firewalld
查看状态
systemctl status firewalld
到这里,我们的静态网络配置和防火墙关闭并禁用就完成了.
s1 s2 也是同样的操作
注意!!!
在 IPADDR 最后一个数字组中,数字要不一样,这是我的设置
master:
IPADDR:192.168.50.10
s1:
IPADDR:192.168.50.11
s2
IPADDR:192.168.50.12
配置主机名
在终端下输入代码来改变z
master主机下:
hostnamectl set-hostname master
hostnamectl set-hostname s1
hostnamectl set-hostname s2
名字已经改变了。
编辑host文件
在终端输入以下代码
vi /etc/hosts
ip地址填入上面配置好的IPADDR,后面跟着主机名。
测试连接(输入ip地址也可以,这里是可以输入从机的名字也可以连接)
host配置完成
使用ssh传输文件
打开 shell
新建连接
主机输入master 从机输入s1或者s2。
点击连接后,输入用户名,将记住用户勾选。
输入密码,记得勾选记住密码。
连接完成,s1,s2同样的操作。
在xshell界面输入
rz
把四个文件传入虚拟机master中
文件传输完毕
SSH免密配置
在主文件夹下进入 .shh 文件夹(ctrl + h显示隐藏文件)没有自己新建(别忘了前面有个 . )
在目录下选择终端打开
输入
ssh-keygen
连续按三次回车
.ssh目录下有了文件
把 密钥拷贝到其他的从机和自己的主机
ssh-copy-id master
ssh-copy-id s1
ssh-copy-id s2
别的从机就可以免密登录主机master
同理,其他两台从机也是依法炮制
测试登录
ssh master
ssh s1
ssh s2
输入 exit 登出(最好三台虚拟机都测试以下以防万一)
解压文件
tar -xzvf hadoop-2.7.7.tar.gz
解压四个文件
scala 和 spark 我解压在hadoop里(我对这两个解压的文件夹进行了重命名)
配置文件
配置JDK
重新打开终端,输入
vim .bash_profile
按照下图修改
export JAVA_HOME=/root/jdk1.8.0_171
export PATH=$JAVA_HOME/bin:$PATHexport HADOOP_HOME=/root/hadoop-2.7.7
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
保存并退出,测试是否正确安装了JDK
将JDK复制给s1 s2 ,并按照上面的步骤对s1 s2配置 .bash_profile,验证s1,s2是否正确安装JDK
scp -r 复制的文件名 root@s1:~/
scp -r jdk1.8.0.171 root@s1:~/
配置hadoop中的文件
进入目录
修改文件
使用绝对路径稳一点
export JAVA_HOME=/root/jdk1.8.0_171
保存退出
修改文件
修改文件
在下添加以下代码
<property><name>fs.default.name</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/root/hadoopdata</value></property>
保存退出
修改文件
添加
<property><name>dfs.replication</name><value>2</value></property>
修改文件(后面有.template的把它删了)
添加
<property><name>mapreduce.framework.name</name><value>yarn</value></property>
保存退出
修改文件
输入
<property><name>yarn.resourcemanager.hostname</name><value>master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
保存退出
修改文件
保存退出
配置spark文件
添加(注意ip是你的主机ip)
export SCALA_HOME=/root/hadoop-2.7.7/scala
export JAVA_HOME=/root/jdk1.8.0_171
export SPARK_MASTER_IP=192.168.50.10
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/root/hadoop-2.7.7/etc/hadoop
添加节点信息
把整个hadoop-2.7.7拷贝到s1和s2中
scp -r hadoop-2.7.7 s1:~/
scp -r hadoop-2.7.7 s2:~/
配置scala、spark和hadoop环境变量(s1和s2也要)
在前面我们已经把scala解压到hadoop下
在桌面重新打开终端,输入
vim /etc/profile
输入
export SCALA_HOME=/root/hadoop-2.7.7/scala
export PATH=${SCALA_HOME}/bin:$PATH
保存退出
在控制台重新载入配置
source /etc/profile
测试是否成功
scala
配置spark环境变量
在终端输入
添加spark环境变量
保存退出
添加hadoop环境变量
vim .bash_profile
保存退出
重新载入配置文件
在hadoop,s1,s2下新建文件夹 hadoopdata
这一节的操作s1,s2也要重复一遍
格式化hadoop(在master上进行)
hdfs namenode -format
启动hadoop&spark
启动hadoop 并运行实例
使用绝对路径来启动hadoop
/root/hadoop-2.7.7/sbin/start-all.sh
没有报错的话则启动成功
输入jps查看java接口的进程号
运行实例(计算PI)
打开Xshell,输入代码
hadoop jar ~/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi 10 10
按回车,出现结果,实例运行结束,
过程大概2分钟左右
查看hadoop启动状态
点击该链接: http://192.168.50.10:50070/.
出现界面
启动spark,并运行实例
使用绝对路径启动spark
在终端输入
/root/hadoop-2.7.7/spark/sbin/start-all.sh
进入链接: http://192.168.50.10:8080/.
注意你的ip地址是主机的ip地址,和我不一样
出现界面就证明成功:
运行实例
到这里 hadoop + spark 环境就配置完成啦,感谢观看
WIN10环境下配置hadoop+spark并运行实例的教程相关推荐
- Win10 环境下配置 Docker + Laradock + Laravel
Docker Desktop 的安装和配置 参考如下: Docker Desktop 安装和使用 (Windows)_docker windows 安装_咖喱出品的博客-CSDN博客 Laradock ...
- Win10环境下配置VScode远程开发ssh-remote(免密登录)
问题背景: 在开发或者做实验的过程中,我们经常会用到远程服务器或者Github的项目,而我服务器上的项目只能在Jupyter Notebook上编写(或许可以在其他IDE上写,但我不知道).而我们喜欢 ...
- win10环境下配置Gradle
环境要求 环境是windows系统 jdk版本为1.7以上 满足以上两点就可以下载Gradle并且在windows上配置了 去官网下载Gradle 可以去官网:[link]https://gradle ...
- win10环境下 配置SDK环境变量
第一步:右击我的电脑,调出我的电脑 属性 第二步:选择高级系统设置 进入高级选项 点击 环境变量 第三步:找到系统变量 PATH 第四步: 查看下自己的SDK文件夹 所对应的目录 第五 ...
- Win10环境下如何配置Java JDK系统环境变量【图文教程】
Windows10正式版发布后,不少用户都在第一时间对系统进行了升级.但是,最近有位刚刚升级的用户反映自己因为工作需求要在Windows10环境下配置Java JDK系统环境变量,却不知道该如何操作. ...
- 在windows环境下配置gitlab本地代码库
题外话:最近在从事一个NLP算法课题.因为我负责的模块偏重弄理论,更倾向于做为团队竞争力的技术储备,故而与其他模块的交流并不多.一个人做久了,发现欠下的技术债越来越多,要是不好好整理代码,之后的窟窿可 ...
- win10环境下 运行debug程序
百度网盘:链接:https://pan.baidu.com/s/1y6omgW6fI-gT3Dp-0hutOg 提取码:iw4l CSDN0积分下载:https://download.csdn. ...
- win10环境下jdk,jre安装以及环境变量配置
win10环境下jdk,jre安装以及环境变量配置(带图详解) 1️⃣资源准备 jdk可以在官网下载 http://www.oracle.com/technetwork/java/javase/dow ...
- win10环境下下载安装openpose(only cpu)并在pycharm中运行代码(超详细)
win10环境下下载安装openpose(only cpu)并在pycharm中运行代码(超详细) (一)前言 (二)准备工作 (三)友情提醒 (四)详细安装步骤 1.新建文件夹 2.下载OpenPo ...
最新文章
- JavaScript 闭包解析
- 利用开源中国提供的代码仓库提高github下载速度
- 算法导论之NP完全性和近似算法
- 电脑ping不通 plsql能连上_台式电脑不能上网手机却能连上wifi无线网络的解决方法...
- 添加或删除jupyter notebook的虚拟环境
- rda冗余分析步骤_群落分析的典范对应分析(CCA)概述
- primefaces_Primefaces工具栏,工具栏组和工具提示
- 重磅:IntelliJ IDEA 2020.2 EAP 5 已发布,可完美支持Java 15
- cnblog 闪存刷星星,每一条闪存都是星星
- php多人聊天室系统,PHP打造多人在线聊天室[一]
- 悦读 | 理想主义者的突围,读《曾国藩的正面与侧面》
- Rundll32.exe 如何运行dll中的函数
- Python调用百度API进行人像动漫化
- 王煜全:AI独角兽必须进行业务升级 否则必死无疑
- 什么A股,B股,H股?什么是红筹股,蓝筹股
- PyTorch深度学习——PyCharm中使用matplotlib画3D曲面图
- 《python语言程序设计》第5章 课程内的笔记 中for循环转换成while
- SICK 单线激光雷达LMS511
- 中电金信2022春季校园招聘火热开启
- #s45c#s45c是什么材质,s45c日标钢板定轧,s45c技术要求