使用Spark Shell开发运行Spark程序

Spark Shell是一种学习API的简单途径,也是分析数据集交互的有力工具。
虽然本章还没涉及Spark的具体技术细节,但从总体上说,
Spark弹性数据集RDD有两种创建方式:
❑ 从文件系统输入(如HDFS)。
❑ 从已存在的RDD转换得到新的RDD。

现在我们从RDD入手,利用Spark Shell简单演示如何书写并运行Spark程序。
下面以word count这个经典例子来说明。
1)启动spark shell: cd进SPARK_HOME/bin,执行命令

./spark-shell

2)进入scala命令行,执行如下命令:

scala> val file = sc.textFile("hdfs://localhost:50040/hellosparkshell")
scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).
reduceByKey(_+_)
scala> count.collect()

首先从本机上读取文件hellosparkshell,然后解析该文件,最后统计单词及其数量并输出如下:

15/09/29  16:11:46  INFO  spark.SparkContext:  Job  finished:  collect  at<console>:17, took 1.624248037 s
res5: Array[(String, Int)] = Array((hello,12), (spark,12), (shell,12), (this,1),
(is,1), (chapter,1), (three,1)

使用Spark Shell开发运行Spark程序相关推荐

  1. 《循序渐进学Spark》一1.6 使用Spark Shell开发运行Spark程序

    本节书摘来自华章出版社<循序渐进学Spark>一书中的第1章,第1.6节,作者 小象学院 杨 磊,更多章节内容可以访问云栖社区"华章计算机"公众号查看. 1.6 使用S ...

  2. 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计

    1.启动Spark Shell spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序.要注意的是要启动Spark-S ...

  3. Spark-SQL从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)

    1. JDBC Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中. 1.1. 从MySQ ...

  4. spark mysql 写_Spark-SQL从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)...

    1. JDBC Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中. 1.1. 从MySQ ...

  5. spark shell中编写WordCount程序

    启动hdfs 略 http://blog.csdn.net/zengmingen/article/details/53006541 启动spark 略 安装:http://blog.csdn.net/ ...

  6. spark shell的运行模式汇总

    scala语言 模式 启动命令   local模式 spark-shell --master local   yarn模式 spark-shell --master yarn   standalone ...

  7. 如何利用Flutter框架开发运行小程序

    Flutter 是一个非常优秀的开发框架,借助 Flutter,开发者可以在 iOS 以及 Android 平台自由地发挥创意,构建交互丰富的.精美的应用程序. Flutter产品团队透露,创建Flu ...

  8. 启动spark shell

    spark集群安装教程:http://blog.csdn.net/zengmingen/article/details/72123717 启动spark shell. 在spark安装目录bin文件夹 ...

  9. maven依赖 spark sql_Spark开发实例

    本文将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写.编译.打包和运行 Spark 应用程序. 启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径,也是分析 ...

最新文章

  1. 2021-2027年中国透明导电膜玻璃行业市场研究及前瞻分析报告
  2. HTML 标签包含规范,规避脱标流,图片和文字垂直居中对齐,
  3. Android --- ConnectTimeout 和 ReadTimeout 所代表的意义
  4. java url 上传文件_Java使用HttpURLConnection上传文件(转)
  5. 十二、爬了CSDN,我发现了这些
  6. MySql 数据操作类
  7. 【2012百度之星/资格赛】D:共同狂欢
  8. 客户的一个紧急bug,我用了两种方式进行 C# 反编译修改源码
  9. 【CodeForces - 151D】Quantity of Strings (字符串问题,思维推导,有坑)
  10. Apollo 1 融合 Spring 的三个入口
  11. 【Bug】MQ消息与事务提交
  12. android 启动一个应用,android 在一个应用中启动另一个应用
  13. IOS开发之Target-Action模式
  14. java实现modbus rtu协议与 modscan等工具(3)物理连接
  15. 线上幽灵:世界头号黑客米特尼克自传
  16. android jni介绍
  17. python-docx 复制一页_python 怎么用docx读取word的某一页然后放到新的word文档中?...
  18. 上岸重庆邮电大学软件工程学院学硕总结
  19. AMS1117的输入电压范围
  20. 禅道9.7开源集成版

热门文章

  1. Qt窗口部件——QWidget
  2. Confluence 6 针对合并完全失败的内容重新运行合并
  3. MongoDB集群安装与配置2.4.3版本
  4. Pycharm 2018 1.2版本 Mac注册码激活码
  5. VC线程同步技术剖析
  6. “强化学习说白了,是建立分布到分布之间的映射”?数学角度谈谈个人观点
  7. 【编译原理笔记12】中间代码生成:简单赋值语句的翻译,数组引用的翻译
  8. 大学计算机在线阅读,大学计算机
  9. 基于FPGA的RGB图像转 Ycbcr图像实现 gray图像
  10. IIC控制设计读写EEPROM