PySpark-Recipes : 写数据到Hive(local data)
把本地数据导入到Hive
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('write_data').getOrCreate()
import pyspark.sql.functions as F
from pyspark.sql.types import * # Row, StructType, StructField, StringType, IntegerType
建库,建表
hive> create database if not exists Test;
hive> show Test;
hive> create table if not exists Test.wjh_test(
>phone string,
>day int);hive> show tables;
少量写入数据
hive> use ima;
hive> insert into wjh_test values('13233344421', 20190808);
hive> insert into wjh_test values('13666655532', 20190909);
hive> select * from wjh_test:
大量写入数据(本地文件,非hdfs路径下)
# load local data
f = open('/home/今晚打老虎/phone.csv')
# transform > RDD
rdd = spark.sparkContext.parallelize(f).map(lambda x : x.strip('\n').split(','))
#rdd = rdd.map(lambda line: Row(line[0], int(line[1])))
schema = StructType([StructField('phone', StringType(), True), StructField('day', StringType(), True)])
# schema = StructType().add('phone', 'string').add('day', 'string')
df = spark.createDataFrame(rdd, schema)
df.registerTempTable('tempTable')
# 选择表
spark.sql('use Test')
spark.sql('insert into wjh_test select * from tempTable')
查询写入结果
- spark.sql(‘select * from wjh_test limit 10’).show()
- hive>select * from wjh_test limit 10;
PySpark-Recipes : 写数据到Hive(local data)相关推荐
- hive load data外部表报错_从0开始学大数据-Hive基础篇
Hive起源于Facebook,是基于 Hadoop HDFS 分布式文件系统的分布式 数据仓库 架构.它为数据仓库的管理提供了许多功能:数据ETL(抽取.转换和加载)工具.数据存储管理和大型数据集的 ...
- sqoop增量导入hive_使用pyspark模仿sqoop从oracle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)...
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
- hive load data inpath 空目录_走近大数据之Hive进阶(一、Hive数据的导入)
一.使用Load语句进行数据的导入 -语法: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]INTO TABLE tablename [PARTITIO ...
- Hive - Load Data 数据过长或过短
一.引言 Hive 可以通过 load data inpath 加载本地或者 hdfs 的数据到 hive 表中,有时会出现生成数据长于 hive 表字段或者短于 hive 表字段的情况,经过测试,两 ...
- spark写表指定外部表_spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API. D ...
- Python+OpenCV:基于SVM手写数据OCR(OCR of Hand-written Data using SVM)
Python+OpenCV:基于SVM手写数据OCR(OCR of Hand-written Data using SVM) dsize = 20 affine_flags = lmc_cv.WARP ...
- Python+OpenCV:基于KNN手写数据OCR(OCR of Hand-written Data using kNN)
Python+OpenCV:基于KNN手写数据OCR(OCR of Hand-written Data using kNN) OCR of Hand-written Digits ########## ...
- hive 删除分区、写数据到分区表
1.删除分区 alter table test_table drop partition(id='123',dt='2022-12-02'); 2.写数据到分区表 insert into test_t ...
- hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错
https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了 csv格式在spark2.0版本之后是内置的,2.0之前 ...
- 大数据之Hive入门
1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...
最新文章
- 详细讲解-sphinx配置文件
- win8如何在已安装多系统的情况下,更改默认开机系统
- 区分JAVA中的对象和引用
- 基于node.js+MongoDB+elementui的分页接口以及页面实现
- Dart基础知识之main()函数介绍
- mockito 静态方法_Mockito模拟静态方法– PowerMock
- Informatica使用pmrep备份存储库
- 你们要的Android计算器,今天它来了~
- Scratch(十八):潜艇大战
- 使用arduino控制多个PCA968516路舵机控制板从而达到最多可以控制992个伺服舵机
- Bootstrap class快捷笔记
- Python 进阶视频课 - 12. Nelson-Siegel 构建债券收益率曲线
- 晶闸管整流桥matlab仿真,整流12脉中频电源MATLAB-Simulink仿真及谐波分析
- React Concurrent Mode 之 Suspense 实践
- 关于Android import-module 和NDK_MODULE_PATH
- 电网调度智能防误操作系统
- springboot集成flowable创建请假流程实例
- 【JAVA大厂面试必问】大厂面试八股文整理, 中厂小厂也爱问的八股文!
- TIA博途WINCC中给IO域添加确认功能的具体方法步骤
- 钌碳Ru/NC7440-18-8制备碳化铁嵌入式碳复合材料
热门文章
- .net pdf转图片_如何将PDF转图片?PDF转图片免费方法!
- Maven工具的简单介绍,以及manen与spring框架之前的优缺点,解决什么是maven、为什么要使用maven,使用maven的好处等问题
- lstm 变长序列_Pytorch 是如何处理变长序列的
- python整型变量化ascii_Python基础之基本数据类型
- c语言编程加三运算,C语言编程入门之--第五章C语言基本运算和表达式-part3
- java怎么写程序_用Java程序怎么写?
- php基于浏览器的linux终端模拟器,shellinabox基于web浏览器的终端模拟器
- C# 正则表达式验证数据类型
- Home Assistant系列 -- 设置界面语言与地理位置
- 一粒云盘发布v3.5版本