2019独角兽企业重金招聘Python工程师标准>>>

  1. [load data]/[insert] overwrite 会先把HDFS目标目录删除(Moved: 'hdfs://hadoop2:8020/apps/hive/warehouse/t2/dt=201411' to trash at: hdfs://hadoop2:8020/user/hdfs/.Trash/Current),再执行操作,这样操作后select(分区) 会只有新数据,旧数据都删除了。[load data]/[insert] into 如果跟目标目录下的文件重名,则先把重名文件重命名,如000000_0 变成 000000_0_copy_1, 再执行操作,这样操作后,select 会有新旧数据。

  2. load data 不能动态分区

  3. 数据行的分割符要在建表时指定,如 create table t(id bigint,name string,dateline bigint) row format delimited fields terminated by ','; 不指定,默认 ‘\0001’

  4. load data local inpath 会拷贝本地文件到HDFS目录,所以会同时存在两份文件。load data inpath 会移动HDFS文件到HDFS另一个目录,所以同时只存在一份文件。Insert overwrite/into …. Select…. 是把查到的记录生成另一份文件, 所以也会同时存在两份文件。

  5. 修改HDFS的数据文件名,不影响数据本身,select 还是有那些数据。

  6. 动态分区

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

动态分区字段要列在所有字段的最后, 如 insert into table t2 partition(dt) select *,from_unixtime(dateline,'yyyyMM') from t;

  1. from_unixtime(cast(regtime as int),'yyyy-MM-dd') 如果regtime类型是string,不是int, 要先转成int,不然会报错。

转载于:https://my.oschina.net/xiaorong919/blog/539761

hive practice 1相关推荐

  1. 史上最详细大数据基础知识

    # **1___Hive** ## 0.0.hive基本命令 ```sql [1.分区表] --创建分区 alter table table_name add partition(分区字段='分区值' ...

  2. MaxCompute(ODPS)上处理非结构化数据的Best Practice

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCom ...

  3. mysql 迁移到tidb_通过从MySQL迁移到TiDB来水平扩展Hive Metastore数据库

    mysql 迁移到tidb Industry: Knowledge Sharing 行业:知识共享 Author: Mengyu Hu (Platform Engineer at Zhihu) 作者: ...

  4. hive中的绣花模型_跨界媒介的碰撞:蜂巢+刺绣 | Ava Roth 「艺术访谈」

    欢迎来到木牙Make Unique Young Arts,让我们来探索跨领域/有机材料艺术与蜜蜂的世界 - 说到蜜蜂,我们最先想到的是传播花粉.花粉也是蜜蜂的营养,油脂来源,而蜜蜂将花蜜消化和处理后的 ...

  5. hive 范例_以人为本的网络范例

    hive 范例 D>=A: Expanding our rights in the digital realm (Article 2 of 6) D> = A:扩大我们在数字领域的权利(第 ...

  6. hive的四种文件存储格式

    hive分为四种存储格式: 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.ORCFILE 在其中textfile为默认格式,如果在创建hive表不提及,会默认启动textf ...

  7. HIVE全部函数详解

    base on hive 2.3.0 函数名 含义及实例 abs abs(x) - returns the absolute value of x Example:   > SELECT abs ...

  8. 2021年大数据Hive(十二):Hive综合案例!!!

    全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive综合案例 一.需求描述 二.项目表的字段 三.进 ...

  9. 2021年大数据Hive(十一):Hive调优

    全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive调优 一.本地模式 1.空key处理 二.SQL ...

最新文章

  1. 从SeekFree的Gitee开源库建立通用MM32开发模板
  2. Linux awk 使用
  3. 网络通信-2(TCP通信、ServerSocket、Socket)
  4. 陕西师范大学第七届程序设计竞赛 C题 iko和她的糖
  5. EncodeUtil
  6. 适配Win11!Edge重磅更新来袭
  7. 微软老兵 Antoine LeBlond 将正式离职
  8. java ndc_通过slf4j/log4j的MDC/NDC 实现日志追踪
  9. 递归实例以及应用包含形参辨析
  10. 学python需要什么基础-学习python需要什么基础
  11. Day06,selenium的剩余用法、万能登录破解和爬取京东商品信息,及破解极验滑动验证码...
  12. svm分类代码_数据挖掘入门系列教程(九)之基于sklearn的SVM使用
  13. 丢弃法(基于MXNet)
  14. 计算机一级考试自测题,计算机一级B考试自测题
  15. vt版本不见了_王者荣耀VT版本玩法是什么?修改机型玩VT版方法是什么?
  16. iPhone 13 投屏到 Windows 10 的办法
  17. CentOS下安裝iRedMail
  18. 计算机网络在信息时代中的作用
  19. 计算机考试怎么调整字号,WPS文字如何调节字体大小突破字号72的限制实现大小随意调...
  20. Java面试题:单核CPU支持多线程吗?

热门文章

  1. SQL Server 表分区实战系列(文章索引)
  2. Mysql数据库编码转换问题
  3. Confluence 6 服务器硬件要求指南
  4. 爬取校园新闻首页的新闻
  5. Facebook新推出AL语言,意在简化程序静态分析
  6. Eclipse高效率开发技巧
  7. Linux--线程编程
  8. ASP.NET 学习笔记_01 广告控件的使用
  9. Oracle OEM 配置报错: No value was set for the parameter DBCONTROL_HTTP_PORT 解决方法
  10. 未来人们获取收入的几个途径