/etc/hosts

有错误时候

Master服务器

127.0.0.1    localhost  Master

172.16.34.20  Master

172.16.34.18 Slave1

172.16.34.17 Slave2

#ipv6 ....

ipv6 module.......

Slave1服务器

127.0.0.1    localhost  Slave1

172.16.34.20  Master

172.16.34.18 Slave1

172.16.34.17 Slave2

#ipv6 ....

ipv6 module.......

Slave2服务器

127.0.0.1    localhost  Slave2

172.16.34.20  Master

172.16.34.18 Slave1

172.16.34.17 Slave2

#ipv6 ....

ipv6 module.......

运行正常时候

Master服务器

172.16.34.20  Master

172.16.34.18 Slave1

172.16.34.17 Slave2

.

Slave1服务器

172.16.34.20  Master

172.16.34.18 Slave1

172.16.34.17 Slave2

Slave2服务器

172.16.34.20  Master

172.16.34.18 Slave1

172.16.34.17 Slave2

错误之前配置 运行在 ubuntu正常;  运行在centos 不正常,改为修改后 运行正常

遇到这个问题的原因是由于master在启动的时候,将hosts中的Master从127.0.0.1替换为了172.16.34.20,而Slave2,Slave3在尝试连接Master的过程中,Master被解析为127.0.0.1与172.16.34.20不一致造成的,

换言之,master在启动的时候能将Master替换为172.16.34.20...

而后面Worker向master注册时候,只能替换为127.0...,

解决方法为将/etc/hosts中的Master对应172.16.34.20,不要让 127.0.0.1 对应 Master;

  1. Work启动,但Http中没有Worker节点:说明Slave节点与Master的通讯出现问题,或Slave节点无法向Master注册,导致虽然Woker启动但不能在Master中找到。这时候需要检查/etc/hosts中的配置是否准确、合理;
  2. Woker启动失败,这种情况说明配置可能存在问题,需要仔细检查;
  3. 版主多次尝试在spark-env.sh中配置master-port\worker-port,但是都失败,具体原因探索中。

是不是你的worker进程已经启动了 但是worker向master注册的时候失败了 应该是worker结点的配置有问题

先感谢下你的回复,谢谢!!

是的,worker进程已经启动,我看日志就是worker向master注册都时候,找不到master的地址,unreachable ip address.
我都是按照视频,博客各种资料上都试过都spark-env.sh都配置来的

master上配置,然后复制到worker上 .
这样就可以启动了呀.就出现那个问题了!

SPARK_MASTER_IP直接写IP
注释 如下hosts,只保留集群间解析
#127.0.0.1 ……
#::

centos6和centos7防火墙的关闭       这两者防火墙关闭方式不一样 ,单独有一篇文章讲解

零、前言

Spark的搭建过程就不多说了,网上有多教程,这里主要参考这个链接http://www.tuicool.com/articles/QBRJn。但是在配置过程中也遇到了很多问题,这里就只说一说Spark启动集群所有机器时worker无法启动或无法在集群管理器上线的问题,折腾了两天终于搞明白设置方法!

一、问题描述

使用start-all.sh启动集群所有的机器时worker无法启动或无法在集群管理器上线。这里分两种情况,一是从Master机执行启动集群命令Salve根本就不相应;而是Salve机可以跟随集群启动,但是在集群管理器的webUI上不上线。

0x01 worker无法启动

如果worker根本无法启动建议首先检查从Master机知否可以ssh无密码登录Salve机,若无法成功尝试参考如下两个链接

https://chenhuachao.com/2016/05/26/ssh%E5%87%BA%E9%94%99-sign-and-send-pubkey-signing-failed-agent-refused-operation/

http://blog.csdn.net/zhenliangqun/article/details/50375375

如果出现如下错误

一般与进程阻塞问题,建议重启Salve机

0x02 worker无法在集群管理器上线

如果Salve机无法在集群管理器上线,既下图的webUI中只有一个工作节点(这个节点就是Master机,因为它既可以是主节点也可以作为工作节点的一员)而其他工作节点无法上线,

在worker节点上的log日志里看到如下错误:

WARN Worker:Failed to connect to master ubuntu://7077

也就是start-all.sh可以将worker启动起来,但是worker无法连接到集群管理器,建议参考以下配置

配置Master机/etc/hosts:

1
2
127.0.0.1       localhost
192.168.211.106       ubuntu

注意:这里的ubuntu原来可能是127.0.1.1,现在要改成你本机的ip

配置Master机$SPARK_HOME/conf/spark-env.sh:

1
2
3
4
5
6
7
8
export JAVA_HOME=/home/Spark/SoftWare/jdk1.8.0_121
export SCALA_HOME=/home/Spark/SoftWare/scala-2.10.4i
export HADOOP_CONF_DIR=/home/Spark/SoftWare/hadoop-2.7.2
export SPARK_MASTER_IP=ubuntu
export SPARK_LOCAL_IP=192.168.211.106
export SPARK_WORKER_MEMORY=2G
export SPARK_MASTER_PORT=7077
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

注意:

1、这里的SPARK_MASTER_IP使用的是hostname

2、SPARK_LOCAL_IP是本机ip,在这里hostname的重定向虽然是本机ip,但是SPARK_LOCAL_IP直接写hostname不一定成功。

3、本配置的hostname既是ubuntu

配置Salve机/etc/hosts:

1
2
3
127.0.0.1       localhost
127.0.1.1       salve
192.168.211.106       ubuntu

注意:

1、Master机与Salve机的hostname不能一致

2、Salve机的$SPARK_HOME/conf/spark-env.sh配置无关紧要

若问题解决即可看到所有worker上线

Spark集群worker启动起来,一会停掉原因--尝试相关推荐

  1. Spark 原理 —— 从 akka 到 spark 集群的启动

    1. actor 到 akka Actor 是一种消息并发模型,基于事件模型的并发机制. Scala 的 Actor 类似于 Java 中的多线程编程,不同在于: Scala 的 Actor 设计的初 ...

  2. Spark集群的启动日志

    Created by Wang, Jerry, last modified on Aug 24, 2015 added by Jerry:- /root/devExpert/spark-1.4.1/s ...

  3. GIS+=地理信息+云计算技术——Spark集群部署

    第一步:安装软件         Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2 ...

  4. Docker 搭建Spark集群

    文章转自:https://blog.csdn.net/lizongti/article/details/99674153 目录 环境准备 依赖 安装Docker Local模式(without Doc ...

  5. Spark集群环境搭建(standalone模式)

    Spark集群环境搭建(standalone模式) 1. 实验室名称: 2. 实验项目名称: 3. 实验学时: 4. 实验原理: 5. 实验目的: 6. 实验内容: 7. 实验器材(设备.虚拟机名称) ...

  6. Spark集群启动时worker节点启不起来

    在spark集群中使用命令: sbin/start-all.sh 启动集群时报错: starting org.apache.spark.deploy.master.Master, logging to ...

  7. 成功启动spark集群程序,使用多台电脑进行计算

    单独启动spark集群(不启动hadoop集群) start-spartk-all.sh spark-submit --class org.apache.spark.examples.JavaSpar ...

  8. yarn集群下启动spark错误WARN:66 - Neither spark.yarn.jars nor spark.yarn.archive is set

    yarn集群下启动spark错误如下: WARN  Client:66 - Neither spark.yarn.jars nor spark.yarn.archive is set, falling ...

  9. Spark集群部署(standLone)模式

      安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器: master主机配置如下: ...

  10. Spark集群模式概述

    2019独角兽企业重金招聘Python工程师标准>>> 集群模式概述 本文简要地概述一下Spark是如何在集群上运行的,方便理解Spark以及相关的组件.如何向集群提交应用程序参阅应 ...

最新文章

  1. Linux安全学习总结
  2. iptables规则备份和恢复、firewall的zone的操作、service的操作
  3. 这几种程序员前途无量!你在其中吗?
  4. 04-树7. Search in a Binary Search Tree (25)
  5. K-means算法应用:图片压缩
  6. ajax 请求_你了解前端出现Ajax跨域请求的原因吗?
  7. bowtie1和bowtie2的比较
  8. Arduino采集Microzone遥控器信号(ROSMicrozoneBridge)
  9. python画图颜色代码_Python-使用matplotlib创建自己的颜色图并绘制颜色比例
  10. mysql连接nacat_【mysql】使用Navicat连接数据库
  11. linux fdisk的分区和格式化和挂载相关操作说明
  12. QQ浏览器、搜狗浏览器等兼容模式下,Asp.NetCore下,Cookie、Session失效问题
  13. 改进后的日志类CLogger
  14. 蓝懿iOS培训日志5 正反向传值及学习心得
  15. 第二十四章 异常和错误处理 6异常类与模板的关系
  16. 反计算机病毒技术论文,计算机病毒反病毒技术论文
  17. HikariCP配置手册
  18. pyecharts查看版本_pyecharts 安装及使用指南
  19. 卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)
  20. Webmin未经身份验证的远程代码执行-墨者学院

热门文章

  1. Magoshare Data Recovery使用教程:在mac上恢复找回删除的丢失文件
  2. 修改spring Boot启动时的默认图案Banner
  3. Docker下Cannot connect to the Docker daemon. Is the docker daemon running on this host错误解决方案
  4. python模块之re模块
  5. 我搭的神经网络不work该怎么办!看看这11条新手最容易犯的错误
  6. 如何在Win7 x64上的配置32位的PostgreSQL ODBC数据源
  7. The stacking context
  8. poj 2182 Lost Cows 线段树!!!!
  9. Illustrator 教程,如何在 Illustrator 中使用绘图模式?
  10. 苹果mac虚拟机软件:Parallels Desktop 17(pd虚拟机)Intel专用版