0. 说明

  编写工具类,考察 Spark 分布式程序的执行地点


1. 工具类编写

  [ JMX ]

  Java Management Extend , Java 管理扩展服务。

  主要用于运维和监控。

  【测试 JMX】

  开启 nc,参考 [Linux] nc

nc -lk 8888

  通过 Client 模式运行 Spark

spark-shell --master spark://s101:7077  --deploy-mode client

  在 Spark Shell 下通过 :paste 执行以下代码

def sendInfo(obj:Object ,m:String , param:String)= {
val ip = java.net.InetAddress.getLocalHost.getHostAddress
val pid = java.lang.management.ManagementFactory.getRuntimeMXBean.getName.split("@")(0)
val tname = Thread.currentThread().getName
val classname = obj.getClass.getSimpleName
val objHash = obj.hashCode()
val info = ip + "/" + pid + "/" + tname + "/" + classname + "@" + objHash + "/" + m + "("+param+")" + "\r\n"//发送数据给nc 服务器
val sock = new java.net.Socket("s101" , 8888)
val out = sock.getOutputStream
out.write(info.getBytes())
out.flush()
out.close()
}

  再执行以下命令

sendInfo(this, "method001" , "argument001")

  在 nc 端监听到的数据如下

  

     IP                     进程id    线程     对象id                              方法(参数 )


2. WordCount

  通过 Client 模式运行 Spark

spark-shell --master spark://s101:7077  --deploy-mode client

  在 Spark Shell 下通过 :paste 执行以下代码

val rdd1 = sc.textFile("/user/centos/data/11.txt" , 4)
val rdd2 = rdd1.flatMap(line=>{
sendInfo(this , "flatMap" , line)
line.split(" ")}
)
val rdd3 = rdd2.map(word=>{
sendInfo(this , "map" , word)
(word,1)
})
val rdd4 = rdd3.reduceByKey((a,b)=>{
sendInfo(this, "reduceByKey", a + "," + b)
a + b
})
val arr = rdd4.collect()

  nc 监听到的数据(参考  [Linux] nc)

   


转载于:https://www.cnblogs.com/share23/p/9783419.html

Spark 分布式调试工具相关推荐

  1. 【异常检测】Isolation forest 的spark 分布式实现

    [异常检测]Isolation forest 的spark 分布式实现 参考文章: (1)[异常检测]Isolation forest 的spark 分布式实现 (2)https://www.cnbl ...

  2. 第14课:Spark 分布式模型训练及调优(实战)

    上节课已经为大家介绍了 Apache Spark 项目的基本情况,以及分布式深度神经网络的解决方案.这节课我们将给出一个 Deeplearning4j+Spark 的建模实例,包括从配置 Maven ...

  3. Dl4j使用Spark分布式训练指定CPU后端训练

    Dl4j使用Spark分布式训练指定CPU后端训练 问题描述 1.打包dl4j应用程序,使用spark-submit在spark集群上分布式运行: 示例提交命令: spark-submit --cla ...

  4. shell半自动化部署standalone的spark分布式集群

    背景:以前每次配置hadoop和spark都要各种输入配置,太烦了.这次花了点时间,自己做了个shell来辅助自己的spark部署方式.cdh的hadoop没有部署,以后再部署,hadoop和spar ...

  5. 可扩展机器学习——Spark分布式处理

    注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接.这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误 ...

  6. 【Spark+NLP】14、使用IDEA运行spark小程序 + jar包在spark分布式环境中运行

    统计E盘下helloSpark.txt文件中每个单词的出现次数 一.测试代码: import org.apache.spark.{SparkContext, SparkConf} object spa ...

  7. [机器学习] XGBoost on Spark 分布式使用完全手册

    一 XGBoost分布式概述 在XGBoost设计之初,就考虑了分布式的实现.树模型最重要的一个问题即是分割点的确定,XGBoost在单机的环境中,数据全部load进内存,feature已经按照值的大 ...

  8. 搭建hadoop和spark分布式环境

    root权限密码:本机<15 Ubuntu的密码是:204 Spark的分布环境需要基于HDFS,所以在装spark之前我们需要先配置hadoop分布式系统: 1.实验做啥: 基本:配置完成ha ...

  9. 云计算实验2 Spark分布式内存计算框架配置及编程案例

    一. 实验目的 掌握分布式多节点计算平台Spark配置,Spark编程环境IDEA配置,示例程序启动与运行 二. 实验环境 Linux的虚拟机环境.线上操作视频和实验指导手册 三. 实验任务 完成Sp ...

最新文章

  1. 如何理解“异或(XOR)”运算在计算机科学中的重要性?(转自-阿里聚安全)...
  2. Dropbox用户数增速恢复:突破5亿 9个月增加1亿
  3. [云炬创业学笔记]第二章决定成为创业者测试5
  4. java后台如何实现让用户可以在页面修改数据表_长见识了,Kotlin + SpringBoot + JPA 整合开发比Java更爽......
  5. 第六十三期:放下你手里的代码,小心被抓!
  6. 计算机编程结束进程代码,M代码如何停止CNC编程的程序
  7. 红外遥控c语言,NEC协议红外遥控器
  8. django url 生效_django 定制管理页面外观 模板文件不生效的解决方法
  9. Frequentist 观点和 Bayesian 观点
  10. 一个架构师谈什么是架构,以及怎么成为架构师
  11. Windows XP sp3上可以安装SQL Server 2008企业版?
  12. 多元:复相关系数和偏相关系数
  13. 在软件开发的早期阶段为什么要进行可行性研究?应该从哪些方面研究目标系统的可行性?...
  14. Leetcode——714. Best Time to Buy and Sell Stock with Transaction Fee
  15. Spring配置文件中的parent与abstract
  16. 我们来试着解答一下下面的题目(8)(DP/多重部分和)
  17. 11.03 CSS的基础应用
  18. 制品仓库 Nexus 安装、配置、备份、使用
  19. TwinCAT 3 气缸程序
  20. Linux下的启动oracle服务 启动监听 开放端口操作

热门文章

  1. Makefile中打印变量
  2. python图片转字符画
  3. C++_标准模板库STL概念介绍5-其他库与总结
  4. 阿里云高级总监谈超大规模超高性能分布式快存储系统
  5. mysql 主主+ Keepalived 高可用
  6. 2017 ACM-ICPC 亚洲区(西安赛区)网络赛
  7. Ansible自动化运维笔记1(安装配置)
  8. 用户名 不在 sudoers文件中,此事将被报告
  9. 超日债违约引发大宗商品暴跌 伦铜大跌近9%
  10. linux中的NFS服务器配置及/etc/exports