Hive - Load Data 数据过长或过短
一.引言
Hive 可以通过 load data inpath 加载本地或者 hdfs 的数据到 hive 表中,有时会出现生成数据长于 hive 表字段或者短于 hive 表字段的情况,经过测试,两种情况下 Load Data 到 hive 表中均没有问题。
首先建立测试的 Hive 表,共包含id,年龄,性别3个属性:
function createTable() {
hive -e "
create table if not exists tmp_test_table_1203 (
id STRING,
age STRING,
gender STRING
)
PARTITIONED BY(dt string)
row format delimited fields terminated by '\t'
"
}
createTable
二.实践操作
1. 加载数据函数
function loadData() {
path=$1
part=$2
hive -e "
load data local inpath '${path}' overwrite into table tmp_test_table_1202 partition(dt='${part}')
;"
}
loadData long.txt long
如果加载 HDFS 数据采用下述语法:
load data inpath '${path}' overwrite into table tableName partition(dt='$partition')
2.加载长数据
long.txt :
1 90s 0 A
2 80s 1 A
3 90s 0 B
4 70s 1 C
5 00s 1 B
loadData long.txt long
3.加载短数据
short.txt :
6 90s
7 80s
8 90s
9 70s
10 00s
loadData short.txt short
4.检查结果
字段个数超过 hive 表字段的会截取,字段个数少于 hive 表字段的会默认补充 NULL
Hive - Load Data 数据过长或过短相关推荐
- hive load data外部表报错_从0开始学大数据-Hive基础篇
Hive起源于Facebook,是基于 Hadoop HDFS 分布式文件系统的分布式 数据仓库 架构.它为数据仓库的管理提供了许多功能:数据ETL(抽取.转换和加载)工具.数据存储管理和大型数据集的 ...
- Hive Load装载数据与HDFS的关系
装载数据:LOAD移动数据 LOCAL:指定文件位于本地文件系统 :OVERWRITE表示覆盖现有数据 使用方法: -- load数据格式 LOAD DATA LOCAL INPATH '/home/ ...
- hive load data出错
今天往hive导数据时发生了个错误 hive> load data inpath '/user/tmp/uids.test_copy_3.txt' into table userfeature. ...
- hive load data inpath 空目录_Hive内部表 | 每日五分钟学大数据
上一篇说的是外部表,当把EXTERNAL关键字去掉的时候就是内部表了.为什么叫内部表,因为这种表,Hive会(或多或少地)控制着数据的生命周期. 如果你熟悉Hive那你一定知道,Hive默认情况下会将 ...
- hive load data inpath 空目录_走近大数据之Hive进阶(一、Hive数据的导入)
一.使用Load语句进行数据的导入 -语法: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]INTO TABLE tablename [PARTITIO ...
- hive load data inpath 空目录_hive学习笔记之四:分区表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类和汇总,及配套源码,涉及Java.Docker.Kubernetes.DevO ...
- hive load data inpath ‘‘ overwrite into 坑
load data inpath 'dataDir/dim_url.csv' overwrite into table dim_url partition(day='2021-03') 注意: 1,以 ...
- Hive load data 时中文乱码的解决
检查建表的字段分隔符,我的是 制表符(\t) 所以在保存为文本文件的时候要注意是要用制表符(\t)分隔 最重要的一步: 保存文本文件的时候要注意,文件编码要为无BOM头的UTF-8编码 最后执行命令即 ...
- hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错
https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了 csv格式在spark2.0版本之后是内置的,2.0之前 ...
最新文章
- u-boot.lds文件简介
- 数据库课程设计——人才市场管理系统、教学管理系统、产品销售管理系统、小区物业管理系统
- 软件工程基础知识--需求分析
- 安信可nbiot模块_安信可无线模组
- 你对Redis的使用靠谱吗?Redis的性能高,吗?Redis可以保证原子性,吗?用Redis可以实现事务,吗?用Redis可以当队列,吗?Redis适合用来做什么?
- 2021-6-25 组态王与modbus rtu从机STM32精英开发板通信
- openoffice 中文乱码问题
- C语言实现AES ecb加解密
- 一文看懂神经网络工作原理
- ContextCapture User Guide V4.4.11 Welcome(Smart3D 帮助文档 第一章 欢迎)
- Spark Streaming读取Kafka数据的两种方式
- 键盘控制盒子移动案例
- leetcode2248. 多个数组求交集【290场周赛】(java)
- 拿到软考证书到底会有哪些作用?
- IDEA中对Git的常规操作(合并,提交,新建分支,更新)
- PSPICE中的各种库文件说明
- Flink系列之Flink流式计算引擎基础理论
- SYN480R模块解码EV1527教程
- box-shadow的属性 各种盒子阴影设置
- oracle xe 11g下载和安装教程
热门文章
- 紧握入场门票,字节跳动游戏地位能否逆转?
- PS常用快捷键及技巧总结
- 计算机系统中设置保护系统还原,如何在Windows 7中使用系统还原
- js遍历json对象和jquery $.each()遍历json
- 两水先木示身为Unity3D职场人的个人觉悟
- CSP认证 202009-4 星际旅行 Python 题解 思路清晰
- R语言处理单细胞表达矩阵合并拟细胞(pseudocell)对表达矩阵进行压缩
- 口子窖Q3营收净利双增背后:高档酒占比下降拖累毛利率下滑
- 钢笔墨水能否代替打印机墨水_钢笔老是堵 直到我用了高档的墨水
- 上海亚商投顾:沪指缩量反弹 一带一路概念股掀涨停潮