SparkSql常用命令操作
1、进入spark-shell模式
spark-shell --master yarn --executor-memory 4g --num-executors 3 --executor-cores 4
2、spark sql查询Hive数据库
import spark.sql
sql("use database_name”)
sql("show tables").show
3、读取hdfs文件数据
val data = spark.read.format("csv").option("sep", ",").option("header","true").load("file_path + file_name")
4、存储文件(默认hdfs路径)
data.write.format("csv").save("/data/....")
5、读取hive表数据
val res = spark.sql("select * from table_1 where day='20181230'")
6、注册成表
res.registerTempTable(“Res")
7、更换属性
val ss = data.selectExpr("_c0 as like","_c1 as session_id","_c2 as uid1”)
8、删除某列属性
val s1 = data.drop("_c0”)
9、一列转换成多列
val df2 =df1.withColumn("_corrupt_record",split(col("_corrupt_record"),","))
.select(col("_corrupt_record").getItem(0).as("uid"),col("_corrupt_record").getItem(1).as("number"))
10、过滤数字(三个横线)
val uid = df2.filter($"number"===1)
11、过滤空值
val s_1 = res.filter("like is not null").filter("session_id is not null”)
SparkSql常用命令操作相关推荐
- Docker常用命令操作——1)、镜像操作;2)、容器操作
Docker常用命令&操作 1).镜像操作 https://hub.docker.com/ 操作 命令 说明 检索 docker search 关键字 eg:docker search red ...
- Docker系列之常用命令操作手册
Docker系列之常用命令操作手册 继上一篇博客Docker系列之原理简单介绍之后,本博客对常用的Docker命令进行实践 文章目录 1.安装虚拟机 2.安装Docker 3.Docker镜像操作 4 ...
- 01《穿越时空的git》科幻小电影-Git创建版本库和常用命令操作-提交、回退、撤销、删除
小时候看过一部印象很深的剧叫做<穿越时空的爱恋>,今日也厚着脸皮导演一部<穿越时空的git>,不上映,纯属自嗨! 1.创建版本库 what is 版本库?无论我们平常使用git ...
- linux中剪切文件命令,Linux文件处理常用命令操作技巧
我是Linux初学者,做个笔记,以下是Linux几个常用文件处理命令: 命令提示符 [root@localhost~]# 其中: root 表示当前登 ...
- Zookeeper常用命令操作,javaAPI操作之Curator框架 API
浅谈:Zookeeper Zookeeper 概念 • Zookeeper 是 Apache Hadoop 项目下的一个子项目,是一个树形目录服务. • Zookeeper 翻译过来就是 动物园管理员 ...
- 统信UOS命令大全 麒麟系统命令大全 Linux常用命令操作大全(非常全非常详细) ubuntu命令大全常用操作命令大全
[腾讯云]云服务器2核4G74元/年,222元/3年 Linux常用命令大全(非常全!!!)适用于 统信UOS 麒麟kylin 系统信息 arch 显示机器的处理器架构 uname -m 显示机器的 ...
- Linux下Vim的常用命令操作大全
Vim常用命令 说明 yy 复制光标所在行 p 粘贴 dd 删除/剪切当前行 u 撤销 :/搜索的内容 搜索指定内容 :123 移动到123行 G 回到最后一行 gg 回到第一行 数字+G 回到指定行 ...
- Git 常用命令操作详解
Git常用命令 Git提供了很多命令来完成相应的操作,为了方便学习,我们将这些命令进行了分类.在学习命令的过程中会讲解一些Git相关的概念. 在本章节我们会学习到如下一些命令和概念: 环境配置 获取G ...
- git常用命令操作详解(gitblit自建服务器使用)
第一部分,推送本地 git config --global user.email "you@example.com" //设置本机的邮箱地址 git config --glob ...
最新文章
- JavaScript 各种遍历方式详解
- 复杂个人信息输出程序python_Python高级技巧:用一行代码减少一半内存占用
- linux上验证cudnn是否安装成功_非root用户安装cuda与cudnn
- Android Annotations配置与使用
- JSP作用域与特殊对象
- sctp和tcp的区别
- c语言行列坐标是先行后j,C语言学习之行列操作
- Spring的XML解析原理,ie浏览器java插件下载
- python 平方根_数的Python平方根
- hdu1695 GCD(莫比乌斯反演)
- 【转】Linux内核调试方法总结
- HTML5截取视频第一帧作为预览图片
- PHP中如何获取字符串的长度
- 关于开发工程师的绩效考核
- 品牌 read.php,优网科技高级程序员关于PHP优化知识分享
- 洛谷5339 BZOJ5510 TJOI2019 唱、跳、rap和篮球 容斥 dp 组合数
- 02:一文全解:利用谷歌深度学习框架Tensorflow识别手写数字图片(初学者篇)
- 【正点原子STM32连载】第四十五章 SD卡实验 摘自【正点原子】MiniPro STM32H750 开发指南_V1.1
- 2020最新各大网站软件提交入口,软件发布入口汇总
- Eclipse安装使用
热门文章
- java利用kafka生产消费消息
- 算法的性能评价------空间复杂度和时间复杂度
- spring-servlet.xml与applicationContext.xml
- 二、lvm条带化的概念
- 剑指offer:滑动窗口最大值
- 算法提高课-图论-负环-AcWing 361. 观光奶牛:spfa判正环、负环、01分数规划、二分
- c++STL之vector简易使用
- Leetcode 70. 爬楼梯 动态规划 c语言
- tcp/ip 协议栈Linux内核源码分析12 udp套接字发送流程一
- php 服务常量,php常量