Spark的安装分为几种模式,其中一种是本地运行模式,只需要在单节点上解压即可运行,这种模式不需要依赖Hadoop 环境。 运行 spark-shell 本地模式运行spark-shell非常简单,只要运行以下命令即可,假设当前目录是$SPARK_HOME $ MASTER=local $ bin/spark-shell MASTER=local就是表明当前运行在单机模式。如果一切顺利,将看到下面的提示信息: Created spark context.. Spark context available as sc. 这表明spark-shell中已经内置了Spark context的变量,名称为sc,我们可以直接使用该变量进行后续的操作。 spark-shell 后面设置 master 参数,可以支持更多的模式, 我们在sparkshell中运行一下最简单的例子,统计在README.md中含有Spark的行数有多少,在spark-shell中输入如下代码: scala>sc.textFile("README.md").filter(_.contains("Spark")).count 如果你觉得输出的日志太多,你可以从模板文件创建 conf/log4j.properties : $ mv conf/log4j.properties.template conf/log4j.properties 然后修改日志输出级别为WARN: log4j.rootCategory=WARN, console 如果你设置的 log4j 日志等级为 INFO,则你可以看到这样的一行日志 INFO SparkUI: Started SparkUI at http://10.9.4.165:4040,意思是 Spark 启动了一个 web 服务器,你可以通过浏览器访问 http://10.9.4.165:4040来查看 Spark 的任务运行状态等信息。 pyspark 运行 bin/pyspark 的输出为: $ bin/pyspark Python 2.7.6 (default, Sep 9 2014, 15:04:36) [GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.39)] on darwin Type "help", "copyright", "credits" or "license" for more information. Spark assembly has been built with Hive, including Datanucleus jars on classpath Picked up JAVA_TOOL_OPTIONS: -Dfile.encoding=UTF-8 15/03/30 15:19:07 WARN Utils: Your hostname, june-mac resolves to a loopback address: 127.0.0.1; using 10.9.4.165 instead (on interface utun0) 15/03/30 15:19:07 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address 15/03/30 15:19:07 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ / __/ _/ /__ / .__/\_,_/_/ /_/\_\ version 1.3.0 /_/ Using Python version 2.7.6 (default, Sep 9 2014 15:04:36) SparkContext available as sc, HiveContext available as sqlCtx. 你也可以使用 IPython 来运行 Spark: IPYTHON=1 ./bin/pyspark 如果要使用 IPython NoteBook,则运行: IPYTHON_OPTS="notebook" ./bin/pyspark 从日志可以看到,不管是 bin/pyspark 还是 bin/spark-shell,他们都有两个内置的变量:sc 和 sqlCtx。 SparkContext available as sc, HiveContext available as sqlCtx sc 代表着 Spark 的上下文,通过该变量可以执行 Spark 的一些操作,而 sqlCtx 代表着 HiveContext 的上下文。 spark-submit 在Spark1.0之后提供了一个统一的脚本spark-submit来提交任务。 对于 python 程序,我们可以直接使用 spark-submit: $ mkdir -p /usr/lib/spark/examples/python$ tar zxvf /usr/lib/spark/lib/python.tar.gz -C /usr/lib/spark/examples/python$ ./bin/spark-submit examples/python/pi.py 10 对于 Java 程序,我们需要先编译代码然后打包运行: $ spark-submit --class "SimpleApp" --master local[4] simple-project-1.0.jar Spark 运行模式 Spark 的运行模式多种多样、灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布式模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可以供选择,这取决于集群的实际情况,底层的资源调度既可以依赖于外部的资源调度框架,也可以使用 Spark 内建的 Standalone 模式。对于外部资源调度框架的支持,目前的实现包括相对稳定的 Mesos 模式,以及还在持续开发更新中的 Hadoop YARN 模式。 在实际应用中,Spark 应用程序的运行模式取决于传递给 SparkContext 的 MASTER 环境变量的值,个别模式还需要依赖辅助的程序接口来配合使用,目前所支持的 MASTER 环境变量由特定的字符串或 URL 所组成。例如: Local[N]:本地模式,使用 N 个线程。 Local Cluster[Worker,core,Memory]:伪分布式模式,可以配置所需要启动的虚拟工作节点的数量,以及每个工作节点所管理的 CPU 数量和内存尺寸。 Spark://hostname:port:Standalone 模式,需要部署 Spark 到相关节点,URL 为 Spark Master 主机地址和端口。 Mesos://hostname:port:Mesos 模式,需要部署 Spark 和 Mesos 到相关节点,URL 为 Mesos 主机地址和端口。 YARN standalone/Yarn cluster:YARN 模式一,主程序逻辑和任务都运行在 YARN 集群中。 YARN client:YARN 模式二,主程序逻辑运行在本地,具体任务运行在 YARN 集群中。 运行 Spark 通过命令行运行 Spark ,有两种方式:bin/pyspark 和 bin/spark-shell。 运行 bin/spark-shell 输出的日志如下: $ ./bin/spark-shell --master local 你可以从模板文件创建 conf/log4j.properties ,然后修改日志输出级别: mv conf/log4j.properties.template conf/log4j.properties 修改 log4j.rootCategory 的等级为输出 WARN 级别的日志: log4j.rootCategory=WARN, console 如果你设置的 log4j 日志等级为 INFO,则你可以看到这样的一行日志 INFO SparkUI: Started SparkUI at http://10.9.4.165:4040 ,意思是 Spark 启动了一个 web 服务器,你可以通过浏览器访问 http://10.9.4.165:4040 来查看 Spark 的任务运行状态。 从日志可以看到,不管是 bin/pyspark 还是 bin/spark-shell,他们都有两个内置的变量:sc 和 sqlCtx。 SparkContext available as sc, HiveContext available as sqlCtx sc 代表着 Spark 的上下文,通过该变量可以执行 Spark 的一些操作,而 sqlCtx 代表着 HiveContext 的上下文。

“答案来源于网络,供您参考” 希望以上信息可以帮到您!

启动ipython内核发生错误_ipython3启动相关推荐

  1. uefi启动linux内核,uefi下如何启动linux?

    1. 有两种方式 1.1 直接从uefi shell启动linux内核 1.2 从uefi shell启动grub,然后再从grub启动linux内核 2. 需要哪些东西? 2.1 linux内核 2 ...

  2. 启动python内核时发生错误_启动内核时出错

    我一直看到这个消息.在An error ocurred while starting the kernel Traceback (most recent call last): File " ...

  3. dell idrac java_使用 Java 7 Update 51 尝试从 iDRAC 启动虚拟控制台时发生错误:无法启动应用程序...

    文章内容 文章属性 受影响的产品 DSS 2500, DSS 7500, DSS 8440, DSS 9000J, DSS 9000R, DSS 9600, DSS 9620, DSS 9630, D ...

  4. mysql启动不了显示错误5_mysql启动错误5怎么解决

    mysql启动错误5解决方法: 在cmd启动命令提示符时通过 net start MySQL 命令启动MySQL 服务的时候,会出现系统错误5,拒绝访问,原因是权限不够,需要启动系统管理员权限,找到命 ...

  5. linux 单步启动_Linux内核如何装载和启动一个可执行程序

    实验步骤: 1.先把menu删掉,在克隆一个,用test_exec.c覆盖掉test.c. 2.打开test.c.发现增加了一句MenuConfig. 3.打开Makefile,首先静态编译了hell ...

  6. 【转】beyond compare 启动提示“应用程序发生错误”

    [转]beyond compare 启动提示"应用程序发生错误" 今天到公司BCompare不能打开,重新安装也不能打开.最后处理下,就解决了.方法是 把C:\Documents ...

  7. eclipse的启动失败提示发生了错误,请参阅日志文件

    eclipse的在线汉化地址:http://www.eclipse.org/babel/downloads.php 我在把eclipse英文版汉化后可能会出现启动Eclipse的"发生了错误 ...

  8. 启动Vue项目发生的错误总结

    启动Vue项目发生的错误总结 切记:打开 WebStorm的时候用管理员的方式打开 1.安装node_module失败 我是用了淘宝镜像 --> 不可行 其 根本原因是: 版本不兼容 npm c ...

  9. docker 无法启动,无法打开电源,因为发生错误“由于虚拟磁盘系统限制,无法完成请求的操作。虚拟硬盘 VHDX

    背景:更换镜像地址后,重启提示:无法启动,无法打开电源,因为发生错误"由于虚拟磁盘系统限制,无法完成请求的操作.虚拟硬盘 1.更换路径后的磁盘文件是有的,但是docker无法运行. 2.去掉 ...

最新文章

  1. MaxCompute助力ofo实现精细化运营:日订单超3200万、整体运行效率提升76%
  2. MobileIMSDK怎样将Java服务端运行起来以及打成jar包运行
  3. 自走棋电脑版_巨鸟公布自走棋正版自研手游:龙渊发行
  4. JDK1.3安装出现/lib/ld-linux.so.2: bad ELF interpreter: No such file or directory Done.
  5. xml getelementsbytagname php,用PHP编写和读取XML的几种方式
  6. div居中以及div中的元素居中
  7. native service
  8. python达梦数据库_Python 封装 DM 达梦 数据库操作(使用类封装基本的增删改查)...
  9. dsp31段最佳调音图_均衡器如何使用_31段均衡器调整方法
  10. mac 电脑 打开隐藏文件
  11. c++十进制数字转换为小写和大写罗马数字的算法(附完整源码)
  12. 图像表示的相关概念:图像深度、像素深度、位深的区别和关系
  13. Java小游戏:飞翔的小鸟 【附源码和素材】
  14. VPS云主机的定义和基本优势有哪些
  15. 网易云 音乐 url 引入步骤
  16. UI设计的15个设计要点,让你的作品更完美
  17. 36.Nginx 基础入门篇
  18. OpenCV-Python入门实战13例
  19. 华为:尝试超越香农极限,突破芯片工艺瓶颈
  20. ArcBlock Decentralized Identifier 解析

热门文章

  1. 【译】在 Linux 上不安装 Mono 构建 .NET Framework 类库
  2. .NetCore中三种注入生命周期的思考
  3. WCF服务端的.NET Core支持项目Core WCF 正式启动
  4. k8s实战为aspnetcore.webapi微服务注入配置信息
  5. Visual Studio交叉编译器提供对ARM的支持
  6. 统一的.NET文档体验发布
  7. 使用EntityFrameworkCore实现Repository, UnitOfWork,支持MySQL分库分表
  8. 云计算设计模式(四)——消费者的竞争模式
  9. mysql中局部变量说法正确的是_mysql全局变量和局部变量
  10. C语言试题八十三之输出左下三角形九九乘法表