hive practice 1
2019独角兽企业重金招聘Python工程师标准>>>
[load data]/[insert] overwrite 会先把HDFS目标目录删除(Moved: 'hdfs://hadoop2:8020/apps/hive/warehouse/t2/dt=201411' to trash at: hdfs://hadoop2:8020/user/hdfs/.Trash/Current),再执行操作,这样操作后select(分区) 会只有新数据,旧数据都删除了。[load data]/[insert] into 如果跟目标目录下的文件重名,则先把重名文件重命名,如000000_0 变成 000000_0_copy_1, 再执行操作,这样操作后,select 会有新旧数据。
load data 不能动态分区
数据行的分割符要在建表时指定,如 create table t(id bigint,name string,dateline bigint) row format delimited fields terminated by ','; 不指定,默认 ‘\0001’
load data local inpath 会拷贝本地文件到HDFS目录,所以会同时存在两份文件。load data inpath 会移动HDFS文件到HDFS另一个目录,所以同时只存在一份文件。Insert overwrite/into …. Select…. 是把查到的记录生成另一份文件, 所以也会同时存在两份文件。
修改HDFS的数据文件名,不影响数据本身,select 还是有那些数据。
动态分区
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
动态分区字段要列在所有字段的最后, 如 insert into table t2 partition(dt) select *,from_unixtime(dateline,'yyyyMM') from t;
- from_unixtime(cast(regtime as int),'yyyy-MM-dd') 如果regtime类型是string,不是int, 要先转成int,不然会报错。
转载于:https://my.oschina.net/xiaorong919/blog/539761
hive practice 1相关推荐
- 史上最详细大数据基础知识
# **1___Hive** ## 0.0.hive基本命令 ```sql [1.分区表] --创建分区 alter table table_name add partition(分区字段='分区值' ...
- MaxCompute(ODPS)上处理非结构化数据的Best Practice
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCom ...
- mysql 迁移到tidb_通过从MySQL迁移到TiDB来水平扩展Hive Metastore数据库
mysql 迁移到tidb Industry: Knowledge Sharing 行业:知识共享 Author: Mengyu Hu (Platform Engineer at Zhihu) 作者: ...
- hive中的绣花模型_跨界媒介的碰撞:蜂巢+刺绣 | Ava Roth 「艺术访谈」
欢迎来到木牙Make Unique Young Arts,让我们来探索跨领域/有机材料艺术与蜜蜂的世界 - 说到蜜蜂,我们最先想到的是传播花粉.花粉也是蜜蜂的营养,油脂来源,而蜜蜂将花蜜消化和处理后的 ...
- hive 范例_以人为本的网络范例
hive 范例 D>=A: Expanding our rights in the digital realm (Article 2 of 6) D> = A:扩大我们在数字领域的权利(第 ...
- hive的四种文件存储格式
hive分为四种存储格式: 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.ORCFILE 在其中textfile为默认格式,如果在创建hive表不提及,会默认启动textf ...
- HIVE全部函数详解
base on hive 2.3.0 函数名 含义及实例 abs abs(x) - returns the absolute value of x Example: > SELECT abs ...
- 2021年大数据Hive(十二):Hive综合案例!!!
全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive综合案例 一.需求描述 二.项目表的字段 三.进 ...
- 2021年大数据Hive(十一):Hive调优
全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive调优 一.本地模式 1.空key处理 二.SQL ...
最新文章
- 从SeekFree的Gitee开源库建立通用MM32开发模板
- Linux awk 使用
- 网络通信-2(TCP通信、ServerSocket、Socket)
- 陕西师范大学第七届程序设计竞赛 C题 iko和她的糖
- EncodeUtil
- 适配Win11!Edge重磅更新来袭
- 微软老兵 Antoine LeBlond 将正式离职
- java ndc_通过slf4j/log4j的MDC/NDC 实现日志追踪
- 递归实例以及应用包含形参辨析
- 学python需要什么基础-学习python需要什么基础
- Day06,selenium的剩余用法、万能登录破解和爬取京东商品信息,及破解极验滑动验证码...
- svm分类代码_数据挖掘入门系列教程(九)之基于sklearn的SVM使用
- 丢弃法(基于MXNet)
- 计算机一级考试自测题,计算机一级B考试自测题
- vt版本不见了_王者荣耀VT版本玩法是什么?修改机型玩VT版方法是什么?
- iPhone 13 投屏到 Windows 10 的办法
- CentOS下安裝iRedMail
- 计算机网络在信息时代中的作用
- 计算机考试怎么调整字号,WPS文字如何调节字体大小突破字号72的限制实现大小随意调...
- Java面试题:单核CPU支持多线程吗?