创建Mysql数据库

CREATE DATABASE spark;
USE spark;CREATE TABLE DEPT(
DEPTNO int(2) PRIMARY KEY,
DNAME VARCHAR(14),
LOC VARCHAR(13)
);INSERT INTO DEPT VALUE(10, 'ACCOUNTING','NEW YORK');
INSERT INTO DEPT VALUE(20, 'RESEARCH','DALAS');
INSERT INTO DEPT VALUE(30, 'SALES','CHICAGO');
INSERT INTO DEPT VALUE(40, 'OPERATIONS','BOSTON');

创建Hive数据库

CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

准备文本数据emp.txt：

1       tom     clerk   9088    1980-12-09      800.0   NULL    20
2       vincent cl      9999    1992-03-04      1000.0  300.1   30
5       sofia   salesman        8000    1996-02-22      100.0   908     20

将数据导入到hive中：
hive> load data local inpath '/home/iie4bu/data/emp.txt' overwrite into table emp;

JOIN操作

package cn.ac.iie.sparkimport org.apache.spark.sql.SparkSession/*** 使用外部数据源综合查询Hive和Mysql的表数据*/
object HiveMysqlApp {def main(args: Array[String]): Unit = {val spark = SparkSession.builder().appName("HiveMysqlApp").master("local[2]").getOrCreate()// 加载hive表数据val hiveDF = spark.table("emp")// 加载mysql数据val mysqlDF = spark.read.format("jdbc").option("url", "jdbc:mysql://swarm-manager:3306").option("driver", "com.mysql.jdbc.Driver").option("dbtable", "spark.DEPT").option("user", "root").option("password", "123456").load()// JOINval resultDF = hiveDF.join(mysqlDF,hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))     resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),mysqlDF.col("deptno"),mysqlDF.col("dname")).show()resultDF.show()spark.close()}
}

代码需要导入mysql驱动jars ，所以在spark-shell中执行：

SparkSQL之关联mysql和hive查询相关推荐

HIVE的搭建配置及关联MySQL
概念: Hive是由Facebook实现并开源.是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能.其底层数据时存储在HDFS上.Hi ...
hive快还是mysql快_HBase相对Hive查询速度快的对比
原标题:HBase相对Hive查询速度快的对比首先Hive的底层首先是MR,是属于批处理处理时间相对较长,不属于实时读写.在其架构上HBase和Hive有很大的区别. 架构介绍: Hive架构 –( ...
2021年大数据Hive（四）：Hive查询语法
全网最详细的Hive文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录系列历史文章前言 hive查询语法一.SELECT语句 1.语句结构 2.全表查 ...
MySQL 数据库分页查询/聚合查询
引言在本篇博客简单介绍一下分页查询以及聚合查询简单操作. 分页查询在MySQL中,分页查询一般都是使用limit子句实现,limit子句声明如下: SELECT * FROM table LIMI ...
学习笔记Hive（五） —— Hive应用（3）—— Hive查询
五.Hive查询 5.1.创建职工信息表任务实现: 1.创建表dept,emp和salgrade 2.导入数据将数据emp.txt导入到表emp #emp.txt 7369,SMITH,CLERK ...
mysql 子查询概念_聊聊MySQL的子查询
1. 背景在之前介绍MySQL执行计划的博文中已经谈及了一些关于子查询相关的执行计划与优化.本文将重点介绍MySQL中与子查询相关的内容,设计子查询优化策略,包含半连接子查询的优化与非半连接子查询的 ...
mysql跨库查询索引_MySQL中跨库查询怎么搞？
导读在MySQL中跨库查询主要分为两种情况,一种是同服务的跨库查询;另一种是不同服务的跨库查询;它们进行跨库查询是不同的,下面就具体介绍这两种跨库查询. 在MySQL中跨库查询主要分为两种情况,一种 ...
读薄《高性能MySql》(四)查询性能优化
读薄<高性能MySql>(一)MySql基本知识读薄<高性能MySql>(二)Scheme与数据优化读薄<高性能MySql>(三)索引优化读薄<高性能M ...
mysql笔记03 查询性能优化
查询性能优化 1. 为什么查询速度会慢? 1). 如果把查询看作是一个任务,那么它由一系列子任务组成,每个子任务都会消耗一定的时间.如果要优化查询,实际上要优化其子任务,要么消除其中一些子任务,要么减 ...

SparkSQL之关联mysql和hive查询

创建Mysql数据库

创建Hive数据库

JOIN操作

SparkSQL之关联mysql和hive查询相关推荐

最新文章

热门文章