把本地数据导入到Hive

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('write_data').getOrCreate()
import pyspark.sql.functions as F
from pyspark.sql.types import *    # Row, StructType, StructField, StringType, IntegerType

建库，建表

hive> create database if not exists Test;
hive> show Test;
hive> create table if not exists Test.wjh_test(
>phone string,
>day int);hive> show tables;

少量写入数据

hive> use ima;
hive> insert into wjh_test values('13233344421', 20190808);
hive> insert into wjh_test values('13666655532', 20190909);
hive> select * from wjh_test:

大量写入数据（本地文件,非hdfs路径下）

# load local data
f = open('/home/今晚打老虎/phone.csv')
# transform > RDD
rdd = spark.sparkContext.parallelize(f).map(lambda x : x.strip('\n').split(','))
#rdd = rdd.map(lambda line: Row(line[0], int(line[1])))
schema = StructType([StructField('phone', StringType(), True), StructField('day', StringType(), True)])
# schema = StructType().add('phone', 'string').add('day', 'string')
df = spark.createDataFrame(rdd, schema)
df.registerTempTable('tempTable')
# 选择表
spark.sql('use Test')
spark.sql('insert into wjh_test select * from tempTable')

查询写入结果

spark.sql(‘select * from wjh_test limit 10’).show()
hive>select * from wjh_test limit 10;

PySpark-Recipes : 写数据到Hive(local data)相关推荐

hive load data外部表报错_从0开始学大数据-Hive基础篇
Hive起源于Facebook,是基于 Hadoop HDFS 分布式文件系统的分布式数据仓库架构.它为数据仓库的管理提供了许多功能:数据ETL(抽取.转换和加载)工具.数据存储管理和大型数据集的 ...
sqoop增量导入hive_使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）...
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
hive load data inpath 空目录_走近大数据之Hive进阶（一、Hive数据的导入）
一.使用Load语句进行数据的导入 -语法: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]INTO TABLE tablename [PARTITIO ...
Hive - Load Data 数据过长或过短
一.引言 Hive 可以通过 load data inpath 加载本地或者 hdfs 的数据到 hive 表中,有时会出现生成数据长于 hive 表字段或者短于 hive 表字段的情况,经过测试,两 ...
spark写表指定外部表_spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API. D ...
Python+OpenCV：基于SVM手写数据OCR（OCR of Hand-written Data using SVM）
Python+OpenCV:基于SVM手写数据OCR(OCR of Hand-written Data using SVM) dsize = 20 affine_flags = lmc_cv.WARP ...
Python+OpenCV：基于KNN手写数据OCR（OCR of Hand-written Data using kNN）
Python+OpenCV:基于KNN手写数据OCR(OCR of Hand-written Data using kNN) OCR of Hand-written Digits ########## ...
hive 删除分区、写数据到分区表
1.删除分区 alter table test_table drop partition(id='123',dt='2022-12-02'); 2.写数据到分区表 insert into test_t ...
hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错
https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了 csv格式在spark2.0版本之后是内置的,2.0之前 ...
大数据之Hive入门
1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...

PySpark-Recipes : 写数据到Hive(local data)

把本地数据导入到Hive

建库，建表

少量写入数据

大量写入数据（本地文件,非hdfs路径下）

查询写入结果

PySpark-Recipes : 写数据到Hive(local data)相关推荐

最新文章

热门文章