- Spark是什么?

Spark is a MapReduce-like cluster computing framework designed to support 
low-latency iterative jobs and interactive use from an interpreter. It is 
written in Scala, a high-level language for the JVM, and exposes a clean 
language-integrated syntax that makes it easy to write parallel jobs. 
Spark runs on top of the Mesos cluster manager.

- Spark下载地址?

git clone git://github.com/mesos/spark.git

- Spark编译与运行?

1)scala 2.9 +(将bin添加到PATH中或者设定了SCALA_HOME环境变量)

2) spark支持local模式和cluster模式, local不需要安装mesos

3) 如果需要将spark运行在cluster上,需要安装mesos

4)使用spark自带的sbt编译/打包: sbt/sbt compile, sbt/sbt assembly

5)使用spark自带的run脚本运行spark程序

- 验证spark环境是否OK?

在spark目录下运行:

1) local单线程: ./run spark.examples.SparkPi local

2) local多核: ./run spark.examples.SparkPi local[2]

3) mesos本地master: ./run spark.examples.SparkPi master@localhost:5050

- Spark Programming Guide介绍了哪些东西?

1) 将Spark jar包(sbt/sbt assembly)放入CLASSPATH

2) Spark Application可以运行在local或者mesos上

3) Spark提供了两种RDD: Parallelized Collections 和  Hadoop Datasets, RDD能
够支持fault-tolerant,能够恢复因为节点crash造成的partition丢失问题

4) RDD上支持两种类型的Operation: transformation 和 action,其中transformation提供的
lazy类型的操作,只有当实际调用了action才会真正触发transformations

5) Spark提供了两种类型的shared variables: Broadcast Variables 和 Accumulators,对于
Broadcast variables则会将一份share variable分发到每台机器上,而不是默认情况下的每个task;
而对于accumulator则只能支持count和sum型的加操作,并且只有dirver program能够获取其value

- 如何写一些spark application?

多看一些spark例子,如:http://www.spark-project.org/examples.html

https://github.com/mesos/spark/tree/master/examples
 
- 遇到问题怎么办?

首先是google遇到的问题,如果还是解决不了就可以到spark google group去向作者提问题:
http://groups.google.com/group/spark-users?hl=en

- 想深入理解spark怎么办?

阅读spark的理论paper: http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf

阅读spark源代码:https://github.com/mesos/spark

Spark快速入门指南相关推荐

  1. Spark快速入门指南 – Spark安装与基础使用

    本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...

  2. BERT模型超酷炫,上手又太难?请查收这份BERT快速入门指南!

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自 | GitHub    作者 | Jay Alammar 转自 | 机器之心 如 ...

  3. BERT模型超酷炫,上手又太难?请查收这份BERT快速入门指南

    2019-12-31 10:50:59 选自GitHub 作者:Jay Alammar 参与:王子嘉.Geek AI 如果你是一名自然语言处理从业者,那你一定听说过最近大火的 BERT 模型.本文是一 ...

  4. RMAN快速入门指南

    RMAN快速入门指南   1. What is RMAN? 什么是RMAN?    4 2. Terminology 专业词汇解释    4 2.1. Backup sets 备份集合    4 2. ...

  5. 150页书籍《PyTorch 深度学习快速入门指南》附PDF电子版

    为什么说是极简教程,首先本书只涵盖了150页.内容比较精简,特别适合作为 PyTorch 深度学习的入门书籍.为什么这么说呢?因为很多时候,一份厚重的书籍往往会削弱我们学习的积极性,在学习一门新的语言 ...

  6. h5py快速入门指南

    h5py是Python语言用来操作HDF5的模块.下面的文章主要介绍h5py的快速入门指南,翻译自h5py的官方文档:http://docs.h5py.org/en/lates... .该翻译仅为个人 ...

  7. 2017 Vue.js 2快速入门指南

    注意,据部分读者反映本文水多,怕湿身者勿进.后续推荐详解 Vue & Vuex 实践 2017 Vue.js 2快速入门指南翻译自Vue.js 2 Quickstart Tutorial 20 ...

  8. Flux快速入门指南

    翻译自 http://www.jackcallister.com/2015/02/26/the-flux-quick-start-guide.html 2015年2月26日 本文将概述如何使用Flux ...

  9. AngularJS快速入门指南09:SQL

    我们可以将之前章节中的代码用来从数据库中读取数据. 通过PHP Server从MySQL数据库中获取数据 <div ng-app="myApp" ng-controller= ...

最新文章

  1. Appium Desktop介绍-xcodebuild failed with code 65 问题解决
  2. Linux设置SFTP服务用户目录权限
  3. element-ui 使用table控件绑定的list数据的坑
  4. 微分方程的数值解法与程序实现 pdf_初中数学知识点|一元一次方程的概念及讲解(二)建议收藏!内含pdf版...
  5. activeMQ发送与接受消息模板代码
  6. MTK 驱动(78)----MTK 平台查看eMMC和DDR的工作频率
  7. 计算机科学基础内容摘抄,科学网-上计算机课,不接触计算机----日记摘抄(161)-武夷山的博文...
  8. Linux文件系统中的inode
  9. sqlserver2008秘钥
  10. 按之字形顺序打印二叉树(C++)
  11. C#中执行SQL语句
  12. 比想象中更旗舰,金立M2017国内首秀堪称完美!
  13. 我国标准时间授时方法
  14. networkx节点显示、节点中心性度量
  15. mysql 分表联合查询_解决分表后联合查询
  16. android系统电源管理驱动分析
  17. Python 中文数字转英文阿拉伯数字
  18. 帆软 文件控件图标更换_【产品对比】赢在自我的战场:TABLEAU VS. 帆软 (1)
  19. wannier插值能带拟合5
  20. 计算机动画制作流程文字版,常见的三维动画制作流程总结

热门文章

  1. 时间、日期的一些用法
  2. incr、incrby、decr、decrby命令的作用和用法
  3. Java编程----函数
  4. 【Spring】Spring教程入门到精通
  5. galaxy nexus升级包takju-jop40d的boot.img和recovery.img中ramdisk对比
  6. R Error: BiocParallel errors 1 remote errors, element index: 1 506 unevaluated and other errors解决办法
  7. shui-执行多个window.onload
  8. 新增订单统计信息 (20 分)
  9. 关于 git 的用法
  10. H3C CE3000系列交换机插入千兆光模块后发现光模块可发光但端口指示灯不亮