Spark 整合hive 实现数据的读取输出

实验环境: linux centOS 6.7 vmware虚拟机

spark-1.5.1-bin-hadoop-2.1.0

apache-hive-1.2.1

eclipse 或IntelJIDea 本次使用eclipse.

代码:

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.hive.HiveContext;

public class SparkOnHiveDemo {

public static void main(String[] args) {

// 首先还是创建SparkConf

SparkConf conf = new SparkConf().setAppName("HiveDataSource");

// 创建JavaSparkContext

JavaSparkContext sc = new JavaSparkContext(conf);

// 创建HiveContext，注意，这里，它接收的是SparkContext作为参数，不是JavaSparkContext

HiveContext hiveContext = new HiveContext(sc.sc());

//1.可以使用HiveContext 下面的sql(xxx语句)执行HiveSQL语句

//1 .删除表，创建表

// stars_infos ,stars_scores

hiveContext.sql("DROP TABLE IF EXISTS stars_infos");

hiveContext.sql("CREATE TABLE IF NOT EXISTS stars_infos(name STRING,age INT) "

+ "row format delimited fields terminated by ','");

//2.向表里面导入数据

hiveContext.sql("LOAD DATA "

+ "LOCAL INPATH "

+ "'/root/book/stars_infos.txt' "

+ "INTO TABLE stars_infos");

hiveContext.sql("DROP TABLE IF EXISTS stars_scores");

hiveContext.sql("CREATE TABLE IF NOT EXISTS stars_scores(name STRING,score INT) "

+ "row format delimited fields terminated by ','");

hiveContext.sql("LOAD DATA "

+ "LOCAL INPATH "

+ "'/root/book/stars_score.txt' "

+ "INTO TABLE stars_scores");

//3.从一张已经存在的hive表里面拿数据，转换为DF

DataFrame superStarDataFrame = hiveContext.sql("SELECT si.name,si.age,ss.score "

+ "FROM stars_infos si "

+ "JOIN stars_scores ss ON si.name=ss.name "

+ "WHERE ss.score>=90");

//4.把DF的数据再持久化到hive中去,千万别和registerTemtable搞混了

hiveContext.sql("DROP TABLE IF EXISTS superStar");

superStarDataFrame.saveAsTable("superStar");

//5.直接从Hive中得到DF

hiveContext.table("superStar").show();

sc.close();

}

元数据:

可以下载附件，然后上传到指定的目录下。

把程序打包jar后上传到linux指定的目录下，写一个脚本。脚本附件见正文。具体内容修改即可。

运行脚本就可以了。当然要保证MySQL数据库正常，hive正常。

附件：http://down.51cto.com/data/2366931

本文转自 ChinaUnicom110 51CTO博客，原文链接:http://blog.51cto.com/xingyue2011/1956798

Spark 整合hive 实现数据的读取输出相关推荐

spark整合hive
目录 spark-shell整合安装hive 配置信息启动spark 测试 idea中spark整合 windows下搭建hadoop 配置环境变量添加文件 idea连接虚拟机连接文件连接虚 ...
Spark SQL实战(08)-整合Hive
1 整合原理及使用 Apache Spark 是一个快速.可扩展的分布式计算引擎,而 Hive 则是一个数据仓库工具,它提供了数据存储和查询功能.在 Spark 中使用 Hive 可以提高数据处理和查 ...
Spark On Hive配置
查看Spark集群的搭建 Spark On Hive 配置步骤在Spark客户端安装包下的conf目录中创建文件hive-site.xml,配置hive的metastore路径 <config ...
Spark _25.plus _使用idea读取Hive中的数据加载成DataFrame/DataSet（四）
对Spark _25 _读取Hive中的数据加载成DataFrame/DataSet(四) https://georgedage.blog.csdn.net/article/details/10309 ...
spark用scala读取hive表数据（不同版本区别）
spark用scala读取hive表数据 spark1.6写法: val conf = new SparkConf() val sc = new SparkContext(conf) ...
【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数（用户自定义函数）、UDAF函数、性能调优、SparkSQL解决数据倾斜
文章目录一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...
2021年大数据Spark（三十一）：Spark On Hive
目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...
spark读取hdfs路径下的数据_Spark读取HDFS数据分区参考
本文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMet ...
phoenix+hbase+Spark整合，Spark处理数据操作phoenix入hbase，Spring Cloud整合phoenix
1 版本要求 Spark版本:spark-2.3.0-bin-hadoop2.7 Phoenix版本:apache-phoenix-4.14.1-HBase-1.4-bin HBASE版本:hbase ...
漫谈大数据 - Spark on Hive Hive on Spark
目录 Spark on hive 与 Hive on Spark 的区别 Hive查询流程及原理 Hive将SQL转成MapReduce执行速度慢 Hive On Spark优化 Hive元数据库的功 ...

Spark 整合hive 实现数据的读取输出

Spark 整合hive 实现数据的读取输出相关推荐

最新文章

热门文章