(一)二者的区别

(1)分区和分桶都是细化数据管理,但是分区表是手动添加区分,由于hive是读模式,所以对添加进分区的数据不做模式校验。分桶表的数据时按住某些分桶字段进行hash散列 相乘的多个文件,所以数据的准确性高很多

(2)分区表是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹

(3)分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分,如要按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件

(二)归纳总结两者的区别:
(1)从表现形式上:
分区表是一个目录,分桶表是文件

(2)从创建语句上:
分区表使用partitioned by 子句指定,以指定字段为伪列,需要指定字段类型
分桶表由clustered by 子句指定,指定字段为真实字段,需要指定桶的个数

(3)从数量上:
分区表的分区个数可以增长,分桶表一旦指定,不能再增长

(4)从作用上:
分区避免全表扫描,根据分区列查询指定目录提高查询速度
分桶保存分桶查询结果的分桶结构(数据已经按照分桶字段进行了hash散列)。
分桶表数据进行抽样和JOIN时可以提高MR程序效率

大数据之hive分区表和分桶表的区别相关推荐

  1. 大数据快速入门(09):永久弄清楚 Hive 分区表和分桶表的区别

    蛋蛋 和 小智 今天又在"打情骂俏",他们今天在谈论分区表和分桶表,走,我们去听听. 这天,蛋蛋去茶水间倒水,他把水杯放在饮水机下面,打开开关,一直盯着墙上的画在看,灵魂仿佛已经飞 ...

  2. Hive的分区表和分桶表的区别

    1,Hive分区. 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表 ...

  3. 六、Hive中的内部表、外部表、分区表和分桶表

    文章目录 内部表 外部表 分区表 分桶表 在Hive数据仓库中,重要点就是Hive中的四个表.Hive 中的表分为内部表.外部表.分区表和分桶表. 内部表 默认创建的表都是所谓的内部表,有时也被称为管 ...

  4. Hive关于数据表的增删改(内部表、外部表、分区表、分桶表 数据类型、分隔符类型)

    建表 基本语句格式 CREATE [external] TABLE if not exists student #默认建立内部表,加上external则是建立外部表(id int COMMENT'学号 ...

  5. hive 修改分桶数 分桶表_hive 学习之路(五)、Hive的分区表与分桶表

    Hive将表划分为分区(partition)表和分桶(bucket)表. 分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据. 分桶表通常是在原始数 ...

  6. Hive 的概念、应用场景、安装部署及使用、数据存储 、table(内部表)和external table(外部表)、partition(分区表)和bucket(分桶表)

    目录 1.Hive 的概念 2.Hive 的特点 3.Hive 和 RDBMS(关系型数据库) 的对比 4.Hive 和 HBase 的差别 5.Hive 架构 6.Hive安装与使用方法介绍 7.H ...

  7. hive分桶表join_Hive知识梳理

    以问题作为引导,进行Hive知识梳理,可以复习知识时,可以快速抓住要点 提交一条SQL到Hive后,Hive的执行流程是怎么样的? Sql的执行的一个示意图如下 sql 根据这个示意图,我们来描述一下 ...

  8. 大数据之hive实践二(DDL+DML+查询+函数)

    第 4 章 DDL 数据定义 4.1 创建数据库 1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db. hive (default)> ...

  9. Hive分桶表插入数据报错“(The ownership on the staging directory /tmp/hadoop-yarn/staging/root/.staging is not”

    使用Hive在往分桶表插入数据是报错如下 Job Submission failed with exception 'java.io.IOException(The ownership on the ...

最新文章

  1. PIG 中COGROUP中的空值验证
  2. 【Python】直接赋值、浅拷贝和深度拷贝解析
  3. eclipse CTRL+F Find/Replace使用正则表达式
  4. 动态规划/贪心 - 无重叠区间
  5. terminated 线程_Java【多线程系列】JUC线程池—2. 原理(二)、Callable和Future
  6. 艾特某人代码实现_Vue@某人,At某人,仿新浪微博@某人,@user,艾特,艾特某人...
  7. 软考网络工程师学习笔记3-广域通信网
  8. Chromium版Edge体验——几个理由告诉你为什么卸载Chrome!
  9. 【Clickhouse】ClickHouse 内部架构介绍
  10. 【Kafka】如何判断一个kafka集群是否稳定
  11. 滚动图片广告_女排赢球可喜看台马桶广告扎眼 网友:去男足赛场!别在这儿蹭热点...
  12. python调用caffe环境配置
  13. @程序员,你会教自己的孩子学习编程吗?
  14. word 文档规范,比如标题、正文的字号
  15. git基本命令、提交pr
  16. html怎么插入 ppt课件,PPT课件怎么插入声音?
  17. Win10下VS2019 C++ opencv3.4.x 环境搭建过程 | 找不到opencv_world347d.dll | error LNK2019: 无法解析的外部符号
  18. JDK异常处理No appropriate protocol
  19. 街道字符识别赛题理解
  20. 图像形态学——击中击不中

热门文章

  1. t3网络计算机浏览卡死,凭证一点打印 系统就卡死了 重启后还是这样
  2. 固定旋转_扶手也要用大理石!石材旋转楼梯扶手的设计与安装
  3. python测试udp端口_zabbix上使用外部检查的方式监测公网tcp/udp端口开放情况
  4. saas系统是什么_什么是灵活用工智能财税SaaS系统?有什么好处?
  5. 从 Google 的一道面试题说起·
  6. 为XHR对象所有方法和属性提供钩子 全局拦截AJAX
  7. iOS之获取设备的UUID
  8. 【数据结构笔记39】哈希表/散列表、(数据关键字/字符串关键字)散列构造函数
  9. 计数显示器c语言程序,51单片机计数显示器Proteus仿真程序
  10. php单独使用blade模板引擎,laravel 基础教程 —— Blade 模板引擎