Hive之——Hive分区(静态分区+动态分区)
Hive分区的概念与传统关系型数据库分区不同。
传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。
Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。
所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录上添加数据文件。
Hive分区的创建
Hive分区是在创建表的时候用Partitioned by 关键字定义的,但要注意,Partitioned by子句中定义的列是表中正式的列,但是Hive下的数据文件中并不包含这些列,因为它们是目录名。
静态分区
创建一张静态分区表par_tab,单个分区
create table par_tab (name string,nation string) partitioned by (sex string) row format delimited fields terminated by ',';
这时候通过desc查看的表结构如下
hive> desc par_tab; OK name string nation string sex string # Partition Information # col_name data_type comment sex string Time taken: 0.038 seconds, Fetched: 8 row(s)
准备本地数据文件par_tab.txt,内容 “名字/国籍”,将以性别(sex)作为分区
jan,china mary,america lilei,china heyong,china yiku,japan emoji,japan
把数据插入到表(其实load操作相当于把文件移动到HDFS的Hive目录下)
load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab partition (sex='man');
这时候在hive下查询par_tab表,变成了3列,注意。
hive> select * from par_tab; OK jan china man mary america man lilei china man heyong china man yiku japan man emoji japan man Time taken: 0.076 seconds, Fetched: 6 row(s)
查看par_tab目录结构
[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tabdrwxr-xr-x - hadoop supergroup 0 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man/par_tab.txt
可以看到,在新建分区表的时候,系统会在hive数据仓库默认路径/user/hive/warehouse/下创建一个目录(表名),再创建目录的子目录sex=man(分区名),最后在分区名下存放实际的数据文件。
如果再插入另一个数据文件数据,如文件
lily,china nancy,china hanmeimei,america
插入数据
load data local inpath '/home/hadoop/files/par_tab_wm.txt' into table par_tab partition (sex='woman');
查看par_tab表目录结构
[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man/par_tab.txt drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:35 /user/hive/warehouse/par_tab/sex=woman -rwxr-xr-x 1 hadoop supergroup 41 2017-03-29 08:35 /user/hive/warehouse/par_tab/sex=woman/par_tab_wm.txt
最后查看两次插入的结果,包含了man和woman
hive> select * from par_tab; OK jan china man mary america man lilei china man heyong china man yiku japan man emoji japan man lily china woman nancy china woman hanmeimei america woman Time taken: 0.136 seconds, Fetched: 9 row(s)
因为分区列是表实际定义的列,所以查询分区数据时
hive> select * from par_tab where sex='woman'; OK lily china woman nancy china woman hanmeimei america woman Time taken: 0.515 seconds, Fetched: 3 row(s)
下面创建一张静态分区表par_tab_muilt,多个分区(性别+日期)
hive> create table par_tab_muilt (name string, nation string) partitioned by (sex string,dt string) row format delimited fields terminated by ',' ; hive> load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab_muilt partition (sex='man',dt='2017-03-29');[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab_muilt drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man/dt=2017-03-29 -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man/dt=2017-03-29/par_tab.txt
可见,新建表的时候定义的分区顺序,决定了文件目录顺序(谁是父目录谁是子目录),正因为有了这个层级关系,当我们查询所有man的时候,man以下的所有日期下的数据都会被查出来。如果只查询日期分区,但父目录sex=man和sex=woman都有该日期的数据,那么Hive会对输入路径进行修剪,从而只扫描日期分区,性别分区不作过滤(即查询结果包含了所有性别)。
动态分区
如果用上述的静态分区,插入的时候必须首先要知道有什么分区类型,而且每个分区写一个load data,太烦人。使用动态分区可解决以上问题,其可以根据查询得到的数据动态分配到分区里。其实动态分区与静态分区区别就是不指定分区目录,由系统自己选择。
首先,启动动态分区功能
hive> set hive.exec.dynamic.partition=true;
假设已有一张表par_tab,前两列是名称name和国籍nation,后两列是分区列,性别sex和日期dt,数据如下
hive> select * from par_tab; OK lily china man 2013-03-28 nancy china man 2013-03-28 hanmeimei america man 2013-03-28 jan china man 2013-03-29 mary america man 2013-03-29 lilei china man 2013-03-29 heyong china man 2013-03-29 yiku japan man 2013-03-29 emoji japan man 2013-03-29 Time taken: 1.141 seconds, Fetched: 9 row(s)
现在我把这张表的内容直接插入到另一张表par_dnm中,并实现sex为静态分区,dt动态分区(不指定到底是哪日,让系统自己分配决定)
hive> insert overwrite table par_dnm partition(sex='man',dt)> select name, nation, dt from par_tab;
插入后看下目录结构
drwxr-xr-x - hadoop supergroup 0 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man drwxr-xr-x - hadoop supergroup 0 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-28 -rwxr-xr-x 1 hadoop supergroup 41 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-28/000000_0 drwxr-xr-x - hadoop supergroup 0 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-29 -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-29/000000_0
再查看分区数
hive> show partitions par_dnm; OK sex=man/dt=2013-03-28 sex=man/dt=2013-03-29 Time taken: 0.065 seconds, Fetched: 2 row(s)
证明动态分区成功。
注意,动态分区不允许主分区采用动态列而副分区采用静态列,这样将导致所有的主分区都要创建副分区静态列所定义的分区。
动态分区可以允许所有的分区列都是动态分区列,但是要首先设置一个参数hive.exec.dynamic.partition.mode :
hive> set hive.exec.dynamic.partition.mode; hive.exec.dynamic.partition.mode=strict
它的默认值是strick,即不允许分区列全部是动态的,这是为了防止用户有可能原意是只在子分区内进行动态建分区,但是由于疏忽忘记为主分区列指定值了,这将导致一个dml语句在短时间内创建大量的新的分区(对应大量新的文件夹),对系统性能带来影响。
所以我们要设置:
hive> set hive.exec.dynamic.partition.mode=nostrick;
Hive之——Hive分区(静态分区+动态分区)相关推荐
- hive静态与动态分区理解
需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写 N 行语句,因此可以使用动态分区,节省大量时间. Hive 的分区方式:由于 Hive 实际是存储在 HDFS 上的抽象,Hive 的一 ...
- 【学习笔记】第三章——内存 I(交换技术、进程七状态模型、动态分区分配、动态分区算法)
文章目录 一. 交换状态.进程七状态模型 二. 内存的分配方式 三. 动态分配算法 一. 交换状态.进程七状态模型 交换技术:内存空间紧张,把某些进程暂时换出外存.(进程在内存与磁盘间动态调度) 进程 ...
- hive的静态分区与动态分区-用法实例
概述 本文是对[3]的复现 所有的SQL操作都在下方gitee链接中 https://gitee.com/appleyuchi/Flink_Code/blob/master/hive动态静态分区/hi ...
- Hive分区(静态分区+动态分区)
原文地址: https://www.cnblogs.com/yongjian/archive/2017/03/29/6640951.html Hive分区的概念与传统关系型数据库分区不同. 传 ...
- 深圳大数据培训:大数据开发之掌握Hive的静态分区与动态分区
深圳大数据培训:大数据开发之掌握Hive的静态分区与动态分区 分区是hive存放数据的一种方式.将列值作为目录来存放数据,就是一个分区. 这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的 ...
- Hive实践1之【静态分区及动态分区基本操作】
Hive分区 引言 1.静态分区 1.1 静态分区--单分区 1.2 静态分区--多分区 2.动态分区 2.1 动态分区--单分区 2.2 动态分区--多分区 3.静态+动态分区 4.动态分区优化 引 ...
- Hive分区表:静态分区、动态分区、多重分区介绍
01 分区表的引入.产生背景 现有6份数据文件,分别记录了<王者荣耀>中6种位置的英雄相关信息.现要求通过建立一张表t_all_hero,把6份文件同时映射加载. create table ...
- hive动态分区shell_Hive动态分区 参数配置及语法
Hive本身是不支持动态分区的.. 但动态分区是真的方便啊..不然手动维护要累死..按日期甚至小时来分区时动辄就好几千上万的分区..手动到哪一年去..? 想要用动态分区要先做一些设置来修改默认的配置. ...
- hive分区用2个字段有何限制_关于Hive使用动态分区插入数据详解
1.创建一个单一字段分区表 hive> create table dpartition(id int ,name string ) partitioned by(ct string ); 2 ...
最新文章
- 快速上手RaphaelJS--RaphaelJS_Starter翻译(二)
- Angular应用里具有back功能的按钮实现
- centos6.5配置Hadoop环境,运行wordcount例子
- 雷,大学教科书竟然使用番茄花园盗版系统
- 拼夕夕订单超时未支付自动关闭实现方案!
- Html中的map标签
- 马斯克:特斯拉汽车产量今年有望达到50万辆
- Leetcode每日一题:530.minimum-absolute-difference-in-bst(二叉搜索树的最小绝对值)
- Linux数据报文的来龙去脉
- 面向对象8:继承性、Object类的理解、写项目经验、debug经验
- 初一计算机课学什么,初一有哪几门课程 各科满分是多少
- url %E4%BD%A0%E5%A5%BD 编码问题
- Mac idea 替换快捷键
- fastadmin 表头随滚轮滚动 bootstrap-table-fixed-columns 左侧随滚轮滚动
- 表的字段和聚合函数连在一起查询需要使用select
- 情感驿站 | 真正厉害的人从不说教
- Java练习题:字节缓冲流性能分析、 文档顺序恢复
- 使用Python通过拉马努金公式快速求π
- emui与android的关系,EMUI
- 26对称矩阵及正定性
热门文章
- Android开发视频教程大总结—23部视频教程
- 那些表面光鲜的成功人士背后
- SAP-跟我一起学习重复制造
- WIN10恢复旧版edge(原版edge)
- OpenCV图像处理学习九,双边滤波器 (Bilateral Filter)和中位数滤波器 (Median Filter)
- linux tcp repair及tcp热迁移
- 武汉大学计算机学院辅导员,武汉大学2021年辅导员拟录名单出炉,多数为名校博士毕业生...
- 动手学数据分析-数据可视化
- 当Python和R遇上北京二手房(上)
- hacking 麦步手表之(1)精简模拟界面