测试文件

测试文件employees.json，内容如下：

{"name":"Michael", "salary":3000, "age": 28}
{"name":"Andy", "salary":4500}
{"name":"Justin", "salary":3500}
{"name":"Berta", "salary":4000}
{"name":"vincent", "salary":90000}

CREATE DataFrame

package cn.ac.iie.sparkimport org.apache.spark.sql.SparkSession/*** DataFrame API基本操作*/object DataFrameApp {def main(args: Array[String]): Unit = {val spark = SparkSession.builder().appName("DataFrameApp").master("local[2]").getOrCreate()// 本地文件系统或者HDFS都支持// 将Json文件加载成一个DataFrameval peopleDF = spark.read.format("json").load("file:///E:/test/employees.json")// 输出DataFrame对应的Schema信息peopleDF.printSchema()// 默认展示数据集前20条记录peopleDF.show()//查询某列的所有数据,相当于mysql中的 select name frompeopleDF.select("name").show()peopleDF.select(peopleDF.col("name"), peopleDF.col("age") + 10).show()peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show()// 根据某一列的值进行过滤： select * from table where age > 20peopleDF.filter(peopleDF.col("age") > 20).show()// 根据某一列进行分组，然后在进行聚合操作:select age, count(1) from table group by agepeopleDF.groupBy(peopleDF.col("age")).count().show()spark.stop()}
}

show()方法默认展示前20条记录，如果要展示多条，则写为show(100)

printSchema

peopleDF.printSchema()

show

peopleDF.show()

select

查询某一列数据

peopleDF.select("name").show()

查询某几列所有的数据

peopleDF.select(peopleDF.col("name"), peopleDF.col("age") + 10).show()，并且还可以对某一列数据进行相应的计算。

给某列名起别名

peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show()

filter

peopleDF.filter(peopleDF.col("age") > 20).show()

group

根据某一列进行分组，然后在进行聚合操作.
原始数据：

peopleDF.groupBy(peopleDF.col("age")).count().show()

SparkSQL之DataFrame API相关推荐

SparkSql之DataFrame操作
Spark SQL中的DataFrame类似于一张关系型数据表.在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现.可以参考,Scala提供的DataFra ...
PySpark | SparkSQL入门 | DataFrame入门
文章目录一.快速入门 1. 什么是SparkSQL 2. 为什么要学习SparkSQL 3. SparkSQL特点二.SparkSQL概述 1. SparkSQL和Hive的异同 2. Spark ...
Spark调优、DataFrame API使用、大表Join、动态分区
Spark DataFrame [scala版] 实践小结 Spark DataFrame 使用注意事项下面介绍的是使用Dataframe时 api 文档中没有写,但是需要注意的坑. DataFra ...
SparkSQL之DataFrame 编程(创建DataFrame ,DataFrame数据运算操作 ,输出存储DataFrame)(11)
一新的编程入口 SparkSession SparkSession 是 Spark 最新的 SQL 查询起始点 ,实质上是 SQLcontext 和 SparkContext 的组合 ,所以在 S ...
35、sparkSQL及DataFrame
一.saprkSQL背景 Spark 1.0版本开始,推出了Spark SQL.其实最早使用的,都是Hadoop自己的Hive查询引擎:但是后来Spark提供了Shark:再后来Shark被淘汰,推出 ...
SparkSQL 创建 DataFrame 的方式
1.读取 json 格式的文件创建 DataFrame 注意: 可以两种方式读取 json 格式的文件. df.show()默认显示前 20 行数据. DataFrame 原生 API 可以操作 Da ...
SparkSQL之DataFrame案例
待处理文件准备待处理文件student.data,内容如下: 1|vincent|13827460000|gvark@eyou.com 2|jenny|13827460002|ovwgofpa@56 ...
Python DataFrame Api整理
DataFrame是提供了很多非常强大的表格管理函数,可以方便的处理表格型数据,DataFrame可以看成每一列都是一个Series组成的表格 DataFrame初始化 import pandas a ...
sparksql：dataframe数据写入到Hbase中
一.步骤:在idea中编程 1.1 添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project ...

SparkSQL之DataFrame API