现在,许多Spark应用程序已成为遗留应用程序,很难在本地进行增强,测试和运行。

Spark具有很好的测试支持,但仍有许多Spark应用程序不可测试。

当您尝试运行一些旧的Spark应用程序时,我将分享一个常见错误。

Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configurationat org.apache.spark.SparkContext.<init>(SparkContext.scala:376)at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2509)at org.apache.spark.sql.SparkSession$Builder$anonfun$6.apply(SparkSession.scala:909)at org.apache.spark.sql.SparkSession$Builder$anonfun$6.apply(SparkSession.scala:901)at scala.Option.getOrElse(Option.scala:121)

当您看到这样的错误时,您有两种选择:

–忘了它不能在本地运行,并继续在这种挫败中工作

–修复它以在本地运行,并向您的团队展示《 童子军规则》的示例

我将展示一个非常简单的模式,它将使您免于受挫。

def main(args: Array[String]): Unit = {val localRun = SparkContextBuilder.isLocalSparkval sparkSession = SparkContextBuilder.newSparkSession(localRun, "Happy Local Spark")val numbers = sparkSession.sparkContext.parallelize(Range.apply(1, 1000))val total = numbers.sum()println(s"Total Value ${total}")}

这段代码使用isLocalSpark函数来决定如何处理本地模式。 您可以使用任何技术来做出该决定,例如env参数或命令行参数或其他任何东西。

一旦知道它在本地运行,就可以基于它创建spark上下文。

现在,此代码可以在本地运行,也可以通过Spark-Submit运行。

快乐的火花测试。


此博客中使用的代码可在@runlocal repo中获得

翻译自: https://www.javacodegeeks.com/2019/01/spark-run-local-design-pattern.html

Spark Run本地设计模式相关推荐

  1. run spark pi_Spark Run本地设计模式

    run spark pi 现在,许多Spark应用程序已成为遗留应用程序,很难在本地进行增强,测试和运行. Spark具有很好的测试支持,但仍有许多Spark应用程序不可测试. 当您尝试运行一些旧的S ...

  2. Spark从本地文件中统计包含某个字母的行数

    Spark从本地文件中统计包含某个字母的行数: import org.apache.spark.SparkConf; import org.apache.spark.sql.Dataset; impo ...

  3. spark sql 本地调试_Spark精华问答|Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  4. spark sql 本地调试_干货 | 如何成为大数据Spark高手

    Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...

  5. spark数据本地性级别划分

    1.数据本地性级别划分 PROCESS_LOCAL: 要处理的数据在同一个本地进程, 即数据和Task在同一个Excutor JVM中. 这种情况是RDD的数据经过缓存,此时不需要网络传输,是最优lo ...

  6. Spark数据本地性

    分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本.移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网 ...

  7. Spark读取本地文件和HDFS文件

    前言 旁边的实习生又一脸懵逼了:Spark有bug,明明我本地/data目录下有test.txt文件,但运行就报错: Caused by: java.io.FileNotFoundException: ...

  8. spark 读取本地文件

    1 背景 基于spark 开发程序 数据放在本地文件中,为text格式 本文语言案例为java 2   步骤 2.1 搭建工程 ​​​​​​​ 基于maven搭建spark工程_this is a b ...

  9. spark写 本地文件报错

    环境:spark1.6,window10,Hadoop2.6 报错:rdd.saveastextFile(outPath) 原因: .在spark bin目录下没有winutils.exe问价 本地d ...

最新文章

  1. 应用交换技术的负载均衡算法
  2. leetCode数据查询笔记(困难)
  3. 七步确定一个优化项目的难易度
  4. .NET Core中的认证管理解析
  5. nosql和rdnms_用于SaaS和NoSQL的Jdbi
  6. 【转】ABP源码分析十二:本地化
  7. python epub.js_如何利用Python打包HTML页面为epub?
  8. 高考生男生学铁路好还是计算机好,解析为什么说男生读铁路学校好呢
  9. java线程状态_java并发编程之线程状态
  10. WMS仓储管理系统解决方案
  11. 服务器ssd内存性能对比,固态硬盘性能排行榜,买之前记得看一看
  12. 神策数据桑文锋:重构数据根基,实现数字化经营
  13. Toad oracle
  14. 苹果id是什么格式的_可以修改微信号了,怎样起一个好看又好记的微信号ID?...
  15. Alpha版本冲刺(三)
  16. 当女生说没衣服穿时。。。。
  17. 信号与槽是如何实现的_Nature | 破解Wnt信号高效远距离传递之谜
  18. 初创游戏企划草案经验谈
  19. Linux 配置本地域名项目
  20. 哔咔服务器维护时间,哔咔

热门文章

  1. 【期望】选书问题(金牌导航 期望-7)
  2. JFreeChart(五)之XY图
  3. 在JavaFX程序中嵌入Swing内容
  4. Redis 的 8 大应用场景
  5. 高级Java必看的10本书
  6. C++描述杭电OJ 2020.绝对值排序 ||
  7. 所有的软弱,都是昂贵的
  8. 邮件发送---SpringBoot
  9. 廖雪峰python教程整理笔记_廖雪峰python教程笔记(一)
  10. 复制vmware overLay网络无法ping通 ping www.baidu.com可以