Spark读取Hive中的数据加载为DataFrame

首先要告诉SparkSql，Hive在哪。然后读取Hive中的数据，必须开启enableHiveSupport。

 val spark = SparkSession.builder().appName("hive").enableHiveSupport().getOrCreate()//创建student_infos和student_scores表并从本地加载进来数据spark.sql("use spark")//使用的库：sparkspark.sql("drop table if exists student_infos")spark.sql("create table if not exists student_infos (name string,age int) row format  delimited fields terminated by '\t'")spark.sql("load data local inpath '/root/test/student_infos' into table student_infos")spark.sql("drop table if exists student_scores")spark.sql("create table if not exists student_scores (name string,score int) row format delimited fields terminated by '\t'")spark.sql("load data local inpath '/root/test/student_scores' into table student_scores")//    //读取表//    val frame: DataFrame = spark.table("student_infos")//    frame.show(100)//查询语句，显示后把结果保存到hiveval df = spark.sql("select si.name,si.age,ss.score from student_infos si,student_scores ss where si.name = ss.name")df.show(100)/*** 将结果.saveAsTable存入到hive表中*/spark.sql("drop table if exists good_student_infos")df.write.mode(SaveMode.Overwrite).saveAsTable("good_student_infos")

Spark读取Hive中的数据加载为DataFrame相关推荐

Spark _25.plus _使用idea读取Hive中的数据加载成DataFrame/DataSet（四）
对Spark _25 _读取Hive中的数据加载成DataFrame/DataSet(四) https://georgedage.blog.csdn.net/article/details/10309 ...
Spark _25 _读取Hive中的数据加载成DataFrame/DataSet（四）
由于Hive不在本地,操作略显麻烦.不过细心一点,分析错误,也还好,如果你搭建的hadoop是HA,需要多注意: 这里指出一个错误,如果你报了同类错误,可以参考:https://georgedage. ...
Pytorch中的数据加载
Pytorch中的数据加载 1. 模型中使用数据加载器的目的在前面的线性回归模型中,使用的数据很少,所以直接把全部数据放到模型中去使用. 但是在深度学习中,数据量通常是都非常多,非常大的,如此大量的 ...
pytorch中的数据加载(dataset基类，以及pytorch自带数据集）
目录 pytorch中的数据加载模型中使用数据加载器的目的数据集类 Dataset基类介绍数据加载案例数据加载器类 pytorch自带的数据集 torchvision.datasets MIN ...
【学习系列7】Pytorch中的数据加载
目录 1. 模型中使用数据加载器的目的 2. 数据集类 3. 迭代数据集 1. 模型中使用数据加载器的目的在前面的线性回归横型中,我们使用的数据很少,所以直接把全部数据放到锁型中去使用. 但是在深度 ...
hive分区、数据加载、数据导出、数据类型
一.hive分区 1.特点: 分区表与其他表不同点在于,分区字段的值为表目录下的子目录格式 ,为: 分区字段=值 2.建表语句 create database learn2; CREATE TABLE ...
c语言文件加载内存吗,把文件中的数据加载到内存进行查找C语言实现.docx
把文件中的数据加载到内存进行查找C语言实现 #define _CRT_SECURE_NO_WARNINGS#include#include#includechar **pp=NULL;void ini ...
Spark读取MySQL中的数据为DataFrame
Spark读取JDBC中的数据(以MySQL为例)为DataFrame,有两种方式. //聚合的时候默认分区是200,可以在此设置 val spark = SparkSession.builder() ...
第七章：在Spark集群上使用文件中的数据加载成为graph并进行操作（3）
你可以调整graph的构造参数来指定partition的数量. 当数据加载完毕的时候整个web-Googel.txt就缓存进了内存之中,如下所示: 可以看到数据被缓存成了edges. 下面我们使用把m ...

Spark读取Hive中的数据加载为DataFrame

Spark读取Hive中的数据加载为DataFrame相关推荐

最新文章

热门文章