DataFrame与DataSet的互操作_大数据培训

2024-04-23 16:51:46

DataFrame与DataSet的互操作

1 DataFrame转DataSet

1）创建一个DateFrame

scala> val df = spark.read.json(“examples/src/main/resources/people.json”)

df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

2）创建一个样例类

scala> case class Person(name: String, age: Long)

defined class Person

3）将DataFrame转化为DataSet

scala> df.as[Person]

res14: org.apache.spark.sql.Dataset[Person] = [age: bigint, name: string]

2 Dataset转DataFrame

1）创建一个样例类

scala> case class Person(name: String, age: Long)

defined class Person

2）创建DataSet

scala> val ds = Seq(Person(“Andy”, 32)).toDS()

ds: org.apache.spark.sql.Dataset[Person] = [name: string, age: bigint]

3）将DataSet转化为DataFrame

scala> val df = ds.toDF

df: org.apache.spark.sql.DataFrame = [name: string, age: bigint]

4）展示

这种方法就是在给出每一列的类型后，使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时，一定要加上 import spark.implicits._ 不然toDF、toDS无法使用。

DataFrame与DataSet的互操作_大数据培训相关推荐

Spark SQL编程DataFrame 创建_大数据培训
DataFrame 创建在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建:从一个存在的RDD ...
Spark 内存管理内存空间分配_大数据培训
静态内存管理在 Spark 最初采用的静态内存管理机制下,存储内存.执行内存和其他内存的大小在 Spark 应用程序运行期间均为固定的,但用户可以应用程序启动前进行配置,堆内内存的分配如图6-2所示 ...
Spark 内存管理堆内和堆外内存规划_大数据培训
堆内和堆外内存规划作为一个 JVM 进程,Executor 的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的堆内(On-heap)空间进行了更为详细的分配,以充分利用内存.同时, ...
Spark 数据倾斜介绍_大数据培训
Spark 数据倾斜 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题. 例如,reduce点一共要 ...
Spark 性能常规性能调优广播大变量_大数据培训
常规性能调优四:广播大变量默认情况下,task中的算子中如果使用了外部的变量,每个task都会获取一份变量的复本,这就造成了内存的极大消耗.一方面,如果后续对RDD进行持久化,可能就无法将RDD数据 ...
spark内核SortShuffle解析_大数据培训
普通SortShuffle 在该模式下,数据会先写入一个数据结构,reduceByKey写入Map,一边通过Map局部聚合,一遍写入内存.Join算子写入ArrayList直接写入内存中.然后需要判断 ...
Spark SQL数据通用保存数据_大数据培训
保存数据 1)write直接保存数据 scala> df.write. csv jdbc json orc parquet textFile- - 注意:保存数据的相关参数需写到上述 ...
Spark Stage级调度_大数据培训
Spark Stage级调度 Spark的任务调度是从DAG切割开始,主要是由DAGScheduler来完成.当遇到一个Action操作后就会触发一个Job的计算,并交给DAGScheduler来提交 ...
Spark Streaming概述_大数据培训
Spark Streaming是什么 Spark Streaming用于流式数据的处理.Spark Streaming支持的数据输入源很多,例如:Kafka.Flume.Twitter.ZeroMQ和 ...

最新文章

热门文章