spark开发环境配置
以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache Spark源码走读系列挺好的,看了些。具体环境配置不是太复杂,具体可以看https://github.com/apache/spark
1、代码下载
git clone
https://github.com/apache/spark.git
2、直接构建spark
我是基于hadoop2.2.0的,因此执行如下:
SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true sbt/sbt assembly
3、具体使用参考https://github.com/apache/spark
Interactive Scala Shell
The easiest way to start using Spark is through the Scala shell:
./bin/spark-shell
Try the following command, which should return 1000:
scala> sc.parallelize(1 to 1000).count()
Interactive Python Shell
Alternatively, if you prefer Python, you can use the Python shell:
./bin/pyspark
And run the following command, which should also return 1000:
>>> sc.parallelize(range(1000)).count()
Example Programs
Spark also comes with several sample programs in the examples
directory. To run one of them, use./bin/run-example <class> [params]
. For example:
./bin/run-example SparkPi
will run the Pi example locally.
You can set the MASTER environment variable when running examples to submit examples to a cluster. This can be a mesos:// or spark:// URL, "yarn-cluster" or "yarn-client" to run on YARN, and "local" to run locally with one thread, or "local[N]" to run locally with N threads. You can also use an abbreviated class name if the class is in the examples
package. For instance:
MASTER=spark://host:7077 ./bin/run-example SparkPi
Many of the example programs print usage help if no params are given.
Running Tests
Testing first requires building Spark. Once Spark is built, tests can be run using:
./sbt/sbt test
使用IDE,安装 Intellj Idea,并安装scala插件
去idea官网下载idea的tar.gz包,解压就行。运行idea,安装scala插件。
在源码根目录,使用如下命令
./sbt/sbt gen-idea
就生成了idea项目文件。使用 idea,点击File->Open project
,浏览到 incubator-spark
文件夹,打开项目,就可以修改Spark代码了。
具体参考:https://github.com/apache/spark
http://cn.soulmachine.me/blog/20140130/
转载于:https://www.cnblogs.com/fengbing/p/3807131.html
spark开发环境配置相关推荐
- windows下spark开发环境配置
--本篇随笔由同事葛同学提供. windows下spark开发环境配置 特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe.hadoop.dll等文件, ...
- window下spark的安装和开发环境配置
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建, ...
- IDEA2022 配置spark开发环境
本人强烈建议在 linux环境下 学习 spark!!! Introduction Apache Spark是一个快速且通用的分布式计算引擎,可以在大规模数据集上进行高效的数据处理,包括数据转换.数据 ...
- IDEA下使用maven配置Spark开发环境
IDEA下使用maven配置Spark开发环境 1.安装Java 2.配置环境变量 3.配置Hadoop环境 4.安装Scala插件 5.配置maven 4.Spark编程 Spark测试 使用到的软 ...
- eclipse配置spark开发环境
前言 无论Windows 或Linux 操作系统,构建Spark 开发环境的思路一致,基于Eclipse 或Idea,通过Java.Scala 或Python 语言进行开发.安装之前需要提前准备好JD ...
- 如何使用intellij搭建spark开发环境(下)
本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%B ...
- Intellij搭建spark开发环境
spark怎么学习呢?在一无所知的前提下,首先去官网快速了解一下spark是干什么的,官网在此.然后,安装开发环境,从wordcount开始学习.第三,上手以后可以学习其他算法了.最后,不要放弃,继续 ...
- idea spark java,IntelliJ Idea 搭建spark 开发环境
笔者介绍的是在MAC环境下使用Idea搭建spark环境. 环境: spark 2.0.0 scala 2.11.8 maven 3.9.9 idea 15 1.Idea的安装.Idea可以在官网上下 ...
- idea搭建spark开发环境完整版(windows)
利用intellij idea 搭建spark开发环境(windows) 本文配置所有环境 Win10 企业版2016长期服务版 Jdk1.8.0.131 Hadoop2.7.3 Spark2.2.0 ...
- Spark开发环境搭建(提供实验平台)
Spark开发环境搭建 1)Scala环境 1. 前置说明 安装与配置Scala开发环境. 实验平台直达链接 Scala是一种函数式面向对象语言,它融汇了许多前所未有的特性,而同时又运行于JVM之上. ...
最新文章
- APPium连接真机输入框中输入的内容与代码中不一致
- Facebook 分享 MySQL 5.6 到 8.0 的迁移经验
- redis如何解决秒杀超卖java_Spring Boot + redis解决商品秒杀库存超卖,看这篇文章就够了...
- C++学习之路 | PTA乙级—— 1034 有理数四则运算 (20 分)(精简)
- C++ primer第一章 C++概述 纪要
- 拉丁正方形 java_LeetCode 221. Maximal Square 最大正方形(C++/Java)
- 一文讲清楚ojdbc、Oracle和JDK之间的兼容性关系
- java多行注释_Java注释:单行、多行和文档注释
- WBS——工作分解结构
- 上网本之必备网络工具推荐
- C#使用ADO.NET访问数据库
- 2020.6.6课堂小结
- C++ modbus TCP 协议跟PLC通信
- 一个入行很长的老鸟给新手的一些建议——转
- 九、redis的删除机制
- Direct3D 12工作原理概述
- 求助:PostgreSQL崩溃问题
- 一个奇怪的网站-- 猫眼
- 读《潜伏在办公室》第二季 (2)
- MC9S12G128模块化分层化软件架构之六——KEY