SparkShell的使用

概念:

SparkShell是Spark自带的一个快速原型开发工具,也可以说是Spark的scala REPL(Read-Eval-Print-Loop),即交互式shell。支持使用scala语言来进行Spark的交互式编程。

使用:

启动Standalone集群,./start-all.sh

在客户端上启动spark-shell:

[root@henu4 ~]# ./spark-shell --master spark://henu1:7077

正常启动:【像springboot一样,有这高逼格的图标】

启动hdfs,创建目录spark/test,上传文件words.txt

strat-all.sh

创建目录:

[root@henu2 ~]# hdfs dfs -mkdir -p /spark/test

上传wc.txt

[root@henu2 ~]# hdfs dfs -put /root/words.txt /spark/test/

文件信息words.txt:

hello world
george george
hello george
hello honey
a li

提交任务:

scala> sc.textFile("hdfs://mycluster/spark/test/words.txt").flatMap(_.split(" ")).map(
(_,1)).reduceByKey(_+_).foreach(println)

运行结果:

http://henu1:8080/

Spark _14_SparkShell的使用相关推荐

  1. SparkShell中提交任务java.net.ConnectException: Call From henu4/192.168.248.244 to henu2:9000 failed on co

    java.net.ConnectException: Call From henu4/192.168.248.244 to henu2:9000 failed on con nection excep ...

  2. hadoop,spark,scala,flink 大数据分布式系统汇总

    20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...

  3. spark,hadoop区别

    https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...

  4. 大规模数据处理Apache Spark开发

    大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...

  5. 客快物流大数据项目(五十四):初始化Spark流式计算程序

    目录 初始化Spark流式计算程序 一.SparkSql参数调优设置 1.设置会话时区

  6. 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu

    Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...

  7. ❤️Spark的关键技术回顾,持续更新!【推荐收藏加关注】❤️

    目录 前言 Spark的关键技术回顾 一.Spark复习题回顾 1.Spark使用的版本 2.Spark几种部署方式? 3.Spark的提交任务的方式? 4.使用Spark-shell的方式也可以交互 ...

  8. 2021年大数据Spark(五十三):Structured Streaming Deduplication

    目录 Streaming Deduplication 介绍 需求 ​​​​​​​代码演示 Streaming Deduplication 介绍 在实时流式应用中,最典型的应用场景:网站UV统计. 1: ...

  9. 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析

    目录 事件时间窗口分析 时间概念 ​​​​​​​event-time ​​​​​​​延迟数据处理 ​​​​​​​延迟数据 ​​​​​​​Watermarking 水位 ​​​​​​​官方案例演示 事件 ...

最新文章

  1. 记一次LAMP环境搭建
  2. 如何让插件加载到Qt Designer
  3. Kubernetes kubectl proxy命令的妙用
  4. 【高级Java架构师系统学习】最新Java高级面试题汇
  5. poj2349:Arctic Network(最小生成树)
  6. 冲动是魔鬼!国庆换机如何不花冤枉钱?
  7. 一文带你了解MultiBERT
  8. Solid angle to Arnold for Cinema4D破解教程
  9. Java实现 pdf 转 图片
  10. ubuntu 批量压缩图片
  11. Android屏幕图片资源大小
  12. 基于Python的信用评分卡建模分析
  13. 交叉编译arm版linaro-1.13.1-4.7-2013.03
  14. 足球视频AI(一)——位置与平面坐标的转换
  15. 用python做flash动画_6 款用于创建优秀动画的免费 Flash 编辑器
  16. 射影几何----射影坐标系下点(1,0,1)的位置
  17. android控件向内弧度_android给View设置边框 填充颜色 弧度
  18. Tiger VC DAO打造去中心化VC,为NFT、DAO带来新叙事
  19. Vuex3 / Vuex4 使用指南
  20. 每天学点统计学——平均

热门文章

  1. Gym - 101173H Hangar Hurdles(bfs+克鲁斯卡尔重构树)
  2. 2021牛客多校1 - Journey among Railway Stations(线段树区间合并)
  3. 树形DP求树的最小支配集,最小点覆盖,最大独立集
  4. 实验一线性表的基本操作实现及其应用(JavaScript实现)
  5. BZOJ3209(n的二进制表示中1的个数的乘积)
  6. 秒杀多线程第十六篇 多线程十大经典案例之一 双线程读写队列数据
  7. STL 之swap, iter_swap, swap_ranges
  8. Redis 缓存常见问题:缓存一致性的解决方案
  9. Linux内存占用分析的几个方法,你知道几个?
  10. 硬核致敬Linux !30岁生日快乐!