Spark读取Hive中的数据加载为DataFrame
首先要告诉SparkSql,Hive在哪。然后读取Hive中的数据,必须开启enableHiveSupport。
val spark = SparkSession.builder().appName("hive").enableHiveSupport().getOrCreate()//创建student_infos和student_scores表并从本地加载进来数据spark.sql("use spark")//使用的库:sparkspark.sql("drop table if exists student_infos")spark.sql("create table if not exists student_infos (name string,age int) row format delimited fields terminated by '\t'")spark.sql("load data local inpath '/root/test/student_infos' into table student_infos")spark.sql("drop table if exists student_scores")spark.sql("create table if not exists student_scores (name string,score int) row format delimited fields terminated by '\t'")spark.sql("load data local inpath '/root/test/student_scores' into table student_scores")// //读取表// val frame: DataFrame = spark.table("student_infos")// frame.show(100)//查询语句,显示后把结果保存到hiveval df = spark.sql("select si.name,si.age,ss.score from student_infos si,student_scores ss where si.name = ss.name")df.show(100)/*** 将结果.saveAsTable存入到hive表中*/spark.sql("drop table if exists good_student_infos")df.write.mode(SaveMode.Overwrite).saveAsTable("good_student_infos")
Spark读取Hive中的数据加载为DataFrame相关推荐
- Spark _25.plus _使用idea读取Hive中的数据加载成DataFrame/DataSet(四)
对Spark _25 _读取Hive中的数据加载成DataFrame/DataSet(四) https://georgedage.blog.csdn.net/article/details/10309 ...
- Spark _25 _读取Hive中的数据加载成DataFrame/DataSet(四)
由于Hive不在本地,操作略显麻烦.不过细心一点,分析错误,也还好,如果你搭建的hadoop是HA,需要多注意: 这里指出一个错误,如果你报了同类错误,可以参考:https://georgedage. ...
- Pytorch中的数据加载
Pytorch中的数据加载 1. 模型中使用数据加载器的目的 在前面的线性回归模型中,使用的数据很少,所以直接把全部数据放到模型中去使用. 但是在深度学习中,数据量通常是都非常多,非常大的,如此大量的 ...
- pytorch中的数据加载(dataset基类,以及pytorch自带数据集)
目录 pytorch中的数据加载 模型中使用数据加载器的目的 数据集类 Dataset基类介绍 数据加载案例 数据加载器类 pytorch自带的数据集 torchvision.datasets MIN ...
- 【学习系列7】Pytorch中的数据加载
目录 1. 模型中使用数据加载器的目的 2. 数据集类 3. 迭代数据集 1. 模型中使用数据加载器的目的 在前面的线性回归横型中,我们使用的数据很少,所以直接把全部数据放到锁型中去使用. 但是在深度 ...
- hive分区、数据加载、数据导出、数据类型
一.hive分区 1.特点: 分区表与其他表不同点在于,分区字段的值为表目录下的子目录格式 ,为: 分区字段=值 2.建表语句 create database learn2; CREATE TABLE ...
- c语言文件 加载内存吗,把文件中的数据加载到内存进行查找C语言实现.docx
把文件中的数据加载到内存进行查找C语言实现 #define _CRT_SECURE_NO_WARNINGS#include#include#includechar **pp=NULL;void ini ...
- Spark读取MySQL中的数据为DataFrame
Spark读取JDBC中的数据(以MySQL为例)为DataFrame,有两种方式. //聚合的时候默认分区是200,可以在此设置 val spark = SparkSession.builder() ...
- 第七章:在Spark集群上使用文件中的数据加载成为graph并进行操作(3)
你可以调整graph的构造参数来指定partition的数量. 当数据加载完毕的时候整个web-Googel.txt就缓存进了内存之中,如下所示: 可以看到数据被缓存成了edges. 下面我们使用把m ...
最新文章
- art-template在项目中的应用
- SpringMVC获取请求参数-集合类型
- 我常用的10个Python实用小Trick
- OpenCV_008-OpenCV 中的图像算术运算
- Android打电话功能权限报错,从打电话权限报错看Android6.0权限变化
- 奥克兰大学计算机科学与技术,奥克兰大学与2016级计算机科学技术专业(中外合作办学)学生见面会顺利进行...
- python中的深拷贝_Python中的深拷贝和浅拷贝
- 避免人为灾难:盘点数据中心里十大愚蠢行为
- Python实现各种进制转换问题,so easy
- 【APP源码】呆萌助手工具箱android源码
- 解决“无法访问。您可能没有权限使用网络资源。请与这台服务器的管理员联系以查明您是否有权限访问”的问题
- 网易2018编程题之游历魔法王国
- 【Servlet】什么是Servlet;常见状态码;Servlet API;Cookie和Session
- 钉钉、企微、飞书学会赚钱了吗?
- 如何进行BI工具的选型?2019必看的商业智能工具选型参考
- konva实现图层跟随鼠标缩放或者根据中心位置缩放
- 腾讯唯一时序数据库:CTSDB 解密
- NOD32杀毒软件绿色移动版http://www.4studio.cn/blog/?p=116
- 保龄球计分c语言,在C的保龄球得分计算器
- 2023软件测试常见面试题面试宝典,刷完这些一周拿6个offer