把本地数据导入到Hive

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('write_data').getOrCreate()
import pyspark.sql.functions as F
from pyspark.sql.types import *    # Row, StructType, StructField, StringType, IntegerType

建库,建表

hive> create database if not exists Test;
hive> show Test;
hive> create table if not exists Test.wjh_test(
>phone string,
>day int);hive> show tables;

少量写入数据

hive> use ima;
hive> insert into wjh_test values('13233344421', 20190808);
hive> insert into wjh_test values('13666655532', 20190909);
hive> select * from wjh_test:

大量写入数据(本地文件,非hdfs路径下)

# load local data
f = open('/home/今晚打老虎/phone.csv')
# transform > RDD
rdd = spark.sparkContext.parallelize(f).map(lambda x : x.strip('\n').split(','))
#rdd = rdd.map(lambda line: Row(line[0], int(line[1])))
schema = StructType([StructField('phone', StringType(), True), StructField('day', StringType(), True)])
# schema = StructType().add('phone', 'string').add('day', 'string')
df = spark.createDataFrame(rdd, schema)
df.registerTempTable('tempTable')
# 选择表
spark.sql('use Test')
spark.sql('insert into wjh_test select * from tempTable')

查询写入结果

  • spark.sql(‘select * from wjh_test limit 10’).show()
  • hive>select * from wjh_test limit 10;

PySpark-Recipes : 写数据到Hive(local data)相关推荐

  1. hive load data外部表报错_从0开始学大数据-Hive基础篇

    Hive起源于Facebook,是基于 Hadoop HDFS 分布式文件系统的分布式 数据仓库 架构.它为数据仓库的管理提供了许多功能:数据ETL(抽取.转换和加载)工具.数据存储管理和大型数据集的 ...

  2. sqoop增量导入hive_使用pyspark模仿sqoop从oracle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)...

    最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...

  3. hive load data inpath 空目录_走近大数据之Hive进阶(一、Hive数据的导入)

    一.使用Load语句进行数据的导入 -语法: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]INTO TABLE tablename [PARTITIO ...

  4. Hive - Load Data 数据过长或过短

    一.引言 Hive 可以通过 load data inpath 加载本地或者 hdfs 的数据到 hive 表中,有时会出现生成数据长于 hive 表字段或者短于 hive 表字段的情况,经过测试,两 ...

  5. spark写表指定外部表_spark 将dataframe数据写入Hive分区表

    从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API. D ...

  6. Python+OpenCV:基于SVM手写数据OCR(OCR of Hand-written Data using SVM)

    Python+OpenCV:基于SVM手写数据OCR(OCR of Hand-written Data using SVM) dsize = 20 affine_flags = lmc_cv.WARP ...

  7. Python+OpenCV:基于KNN手写数据OCR(OCR of Hand-written Data using kNN)

    Python+OpenCV:基于KNN手写数据OCR(OCR of Hand-written Data using kNN) OCR of Hand-written Digits ########## ...

  8. hive 删除分区、写数据到分区表

    1.删除分区 alter table test_table drop partition(id='123',dt='2022-12-02'); 2.写数据到分区表 insert into test_t ...

  9. hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错

    https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了 csv格式在spark2.0版本之后是内置的,2.0之前 ...

  10. 大数据之Hive入门

    1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...

最新文章

  1. 详细讲解-sphinx配置文件
  2. win8如何在已安装多系统的情况下,更改默认开机系统
  3. 区分JAVA中的对象和引用
  4. 基于node.js+MongoDB+elementui的分页接口以及页面实现
  5. Dart基础知识之main()函数介绍
  6. mockito 静态方法_Mockito模拟静态方法– PowerMock
  7. Informatica使用pmrep备份存储库
  8. 你们要的Android计算器,今天它来了~
  9. Scratch(十八):潜艇大战
  10. 使用arduino控制多个PCA968516路舵机控制板从而达到最多可以控制992个伺服舵机
  11. Bootstrap class快捷笔记
  12. Python 进阶视频课 - 12. Nelson-Siegel 构建债券收益率曲线
  13. 晶闸管整流桥matlab仿真,整流12脉中频电源MATLAB-Simulink仿真及谐波分析
  14. React Concurrent Mode 之 Suspense 实践
  15. 关于Android import-module 和NDK_MODULE_PATH
  16. 电网调度智能防误操作系统
  17. springboot集成flowable创建请假流程实例
  18. 【JAVA大厂面试必问】大厂面试八股文整理, 中厂小厂也爱问的八股文!
  19. TIA博途WINCC中给IO域添加确认功能的具体方法步骤
  20. 钌碳Ru/NC7440-18-8制备碳化铁嵌入式碳复合材料

热门文章

  1. .net pdf转图片_如何将PDF转图片?PDF转图片免费方法!
  2. Maven工具的简单介绍,以及manen与spring框架之前的优缺点,解决什么是maven、为什么要使用maven,使用maven的好处等问题
  3. lstm 变长序列_Pytorch 是如何处理变长序列的
  4. python整型变量化ascii_Python基础之基本数据类型
  5. c语言编程加三运算,C语言编程入门之--第五章C语言基本运算和表达式-part3
  6. java怎么写程序_用Java程序怎么写?
  7. php基于浏览器的linux终端模拟器,shellinabox基于web浏览器的终端模拟器
  8. C# 正则表达式验证数据类型
  9. Home Assistant系列 -- 设置界面语言与地理位置
  10. 一粒云盘发布v3.5版本