1. 初始化

Spark程序必须做的第一件事是创建一个JavaSparkContext对象(Scala和Python中是SparkContext对象),它告诉Spark如何访问集群。 要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。

Java版本:

private static String appName = "JavaWordCountDemo";
private static String master = "local";// 初始化Spark
private static SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
private static JavaSparkContext sc = new JavaSparkContext(conf);

Scala版本:

val conf = new SparkConf().setAppName(appName).setMaster(master)
new SparkContext(conf)

备注

每个JVM只有一个SparkContext可能是活跃的。 在创建新的SparkContext之前,必须先调用stop()方法停止之前活跃的SparkContext。

Python版本:

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

appName参数是应用程序在集群UI上显示的名称。 master是Spark,Mesos或YARN集群URL,或以本地模式运行的特殊字符串“local”。 实际上,当在集群上运行时,您不需要在程序中写死master,而是使用spark-submit启动应用程序并以参数传递进行接收。但是,对于本地测试和单元测试,你可以通过“local”来运行Spark进程。

2. 使用Shell

在 Spark shell 中,已经为你创建了一个专有的 SparkContext,可以通过变量sc访问。你自己创建的SparkContext 将无法工作。可以用 --master 参数来设置 SparkContext 要连接的集群,用 --jars 来设置需要添加到 classpath 中的 JAR 包,如果有多个 JAR 包使用逗号分割符连接它们。你还可以通过向--packages参数提供逗号分隔的maven坐标列表,将依赖关系(例如Spark Packages)添加到shell会话中。 可能存在依赖关系的其他存储库(例如Sonatype)可以传递给--repositories参数。例如:在一个拥有 4 核的环境上运行 bin/spark-shell,使用:

./bin/spark-shell --master local[4]

或者,还可以将code.jar添加到其classpath中,请使用:

./bin/spark-shell --master local[4] --jars code.jar

使用maven坐标来包含依赖关系:

./bin/spark-shell --master local[4] --packages "org.example:example:0.1"

可以执行 spark-shell --help 获取完整的选项列表。其背后,spark-shell调用的是更常用的spark-submit脚本(Behind the scenes, spark-shell invokes the more general spark-submit script.)。

原文:http://spark.apache.org/docs/latest/programming-guide.html#initializing-spark

[Spark]Spark RDD 指南二 初始化相关推荐

  1. Spark入门系列(二)| 1小时学会RDD编程

    作者 | 梁云1991 转载自Python与算法之美(ID:Python_Ai_Road) 导读:本文为 Spark入门系列的第二篇文章,主要介绍 RDD 编程,实操性较强,感兴趣的同学可以动手实现一 ...

  2. 编程实现将rdd转换为dataframe:源文件内容如下(_第四篇|Spark Streaming编程指南(1)

    Spark Streaming是构建在Spark Core基础之上的流处理框架,是Spark非常重要的组成部分.Spark Streaming于2013年2月在Spark0.7.0版本中引入,发展至今 ...

  3. hive编程指南_第三篇|Spark SQL编程指南

    在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...

  4. Spark—GraphX编程指南

    GraphX编程指南 GraphX 是新的图形和图像并行计算的Spark API.从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property G ...

  5. spark SQL入门指南《读书笔记》

    文章目录 spark SQL入门指南 第一章 初识 spark mysql 1.1 Spark的诞生 和SparkSQL是什么? 1.2 Spark SQL能做什么? 第2章 Spark安装.编程环境 ...

  6. hive编程指南电子版_第三篇|Spark SQL编程指南

    在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...

  7. Spark性能优化指南:基础篇

    前言 在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...

  8. Spark性能优化指南:高级篇

    前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问 ...

  9. spark-sql建表语句限制_第三篇|Spark SQL编程指南

    在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...

最新文章

  1. Linux服务器通过LVM扩展其磁盘空间
  2. struct的初始化
  3. 国科大高级人工智能笔记1-搜索
  4. 分布式全局唯一ID的实现
  5. 如何设置Cookie
  6. 为什么python不能输入中文_一条命令解决mac版本python IDLE不能输入中文问题
  7. php文档注释提取工具phpdocumentor的使用
  8. LGP2046[NOI2010]海拔正确性证明
  9. 安装搜狗输入法ubantu18.04
  10. 2020年全球电动汽车展望
  11. 英语老师唱歌软件测试,小学英语教师课堂用语测试题
  12. 阿里云ECS搭建在线IDE
  13. android wifi认证,android 怎么检测连接的wlan wifi需要portal认证
  14. 2022年金三银四该如何规划,才能轻松拿到offer
  15. vue时间格式2021-11-21T12:30:00.000+00:00转换yyyy-MM-dd HH:mm:ss
  16. 域渗透基础_域渗透实战下gpo策略利用
  17. Microsoft Edge 浏览器cpu占用率莫名升高
  18. 在树莓派中安装MCSM面板
  19. 最近邻插值与双线性插值
  20. eds能谱图分析实例_成分分析的四大神器—XRF、ICP、EDX和WDX

热门文章

  1. git21天打卡day3-创建仓库
  2. 无限服务器不装显卡能用吗,云服务器能装显卡吗
  3. QTcreator的一些设置
  4. [MATLAB]设置坐标轴标签
  5. java实现画布上画图
  6. php独占登录,php并发控制中的独占锁
  7. 最佳深度学习书单(从零到深度学习工程师)
  8. ibatis 存储过程 结果集 map_大数据之MapReduce shuffle过程
  9. 鸿蒙系统小米手机,华为鸿蒙系统已经发布,小米等国产手机会使用鸿蒙系统吗?...
  10. java云端开发_云端编写Java代码的方法