Spark _14_SparkShell的使用
SparkShell的使用
概念:
SparkShell是Spark自带的一个快速原型开发工具,也可以说是Spark的scala REPL(Read-Eval-Print-Loop),即交互式shell。支持使用scala语言来进行Spark的交互式编程。
使用:
启动Standalone集群,./start-all.sh
在客户端上启动spark-shell:
[root@henu4 ~]# ./spark-shell --master spark://henu1:7077
正常启动:【像springboot一样,有这高逼格的图标】
启动hdfs,创建目录spark/test,上传文件words.txt
strat-all.sh
创建目录:
[root@henu2 ~]# hdfs dfs -mkdir -p /spark/test
上传wc.txt
[root@henu2 ~]# hdfs dfs -put /root/words.txt /spark/test/
文件信息words.txt:
hello world
george george
hello george
hello honey
a li
提交任务:
scala> sc.textFile("hdfs://mycluster/spark/test/words.txt").flatMap(_.split(" ")).map(
(_,1)).reduceByKey(_+_).foreach(println)
运行结果:
http://henu1:8080/
Spark _14_SparkShell的使用相关推荐
- SparkShell中提交任务java.net.ConnectException: Call From henu4/192.168.248.244 to henu2:9000 failed on co
java.net.ConnectException: Call From henu4/192.168.248.244 to henu2:9000 failed on con nection excep ...
- hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
- spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
- 大规模数据处理Apache Spark开发
大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...
- 客快物流大数据项目(五十四):初始化Spark流式计算程序
目录 初始化Spark流式计算程序 一.SparkSql参数调优设置 1.设置会话时区
- 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu
Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...
- ❤️Spark的关键技术回顾,持续更新!【推荐收藏加关注】❤️
目录 前言 Spark的关键技术回顾 一.Spark复习题回顾 1.Spark使用的版本 2.Spark几种部署方式? 3.Spark的提交任务的方式? 4.使用Spark-shell的方式也可以交互 ...
- 2021年大数据Spark(五十三):Structured Streaming Deduplication
目录 Streaming Deduplication 介绍 需求 代码演示 Streaming Deduplication 介绍 在实时流式应用中,最典型的应用场景:网站UV统计. 1: ...
- 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析
目录 事件时间窗口分析 时间概念 event-time 延迟数据处理 延迟数据 Watermarking 水位 官方案例演示 事件 ...
最新文章
- 记一次LAMP环境搭建
- 如何让插件加载到Qt Designer
- Kubernetes kubectl proxy命令的妙用
- 【高级Java架构师系统学习】最新Java高级面试题汇
- poj2349:Arctic Network(最小生成树)
- 冲动是魔鬼!国庆换机如何不花冤枉钱?
- 一文带你了解MultiBERT
- Solid angle to Arnold for Cinema4D破解教程
- Java实现 pdf 转 图片
- ubuntu 批量压缩图片
- Android屏幕图片资源大小
- 基于Python的信用评分卡建模分析
- 交叉编译arm版linaro-1.13.1-4.7-2013.03
- 足球视频AI(一)——位置与平面坐标的转换
- 用python做flash动画_6 款用于创建优秀动画的免费 Flash 编辑器
- 射影几何----射影坐标系下点(1,0,1)的位置
- android控件向内弧度_android给View设置边框 填充颜色 弧度
- Tiger VC DAO打造去中心化VC,为NFT、DAO带来新叙事
- Vuex3 / Vuex4 使用指南
- 每天学点统计学——平均
热门文章
- Gym - 101173H Hangar Hurdles(bfs+克鲁斯卡尔重构树)
- 2021牛客多校1 - Journey among Railway Stations(线段树区间合并)
- 树形DP求树的最小支配集,最小点覆盖,最大独立集
- 实验一线性表的基本操作实现及其应用(JavaScript实现)
- BZOJ3209(n的二进制表示中1的个数的乘积)
- 秒杀多线程第十六篇 多线程十大经典案例之一 双线程读写队列数据
- STL 之swap, iter_swap, swap_ranges
- Redis 缓存常见问题:缓存一致性的解决方案
- Linux内存占用分析的几个方法,你知道几个?
- 硬核致敬Linux !30岁生日快乐!