Hive 3.1.2 Parquet 格式表的 rawDataSize 统计信息不正确
Hive 统计信息的设置和使用,请参考 HIVE Statistics(Hive 统计信息) 的说明和查询优化详解
使用 tpcds-3 数据集进行测试
ORC 格式表的测试
创建 orc 格式的表,设置自动统计统计信息 hive.stats.autogather=true
后,插入数据到 orc 格式的表。
然后使用 desc formatted $TABLE_NAME
显示的部分内容如下
numFiles 6 numRows 2160165 rawDataSize 3947986476 totalSize 115653306
说明 6 个文件,2160165 行,原始数据量是 3947986476 字节,压缩后占用文件 115653306 字节。
用以下命令可以显示表的文件实际的总大小,可以看到,和 totalSize
对应的值一致。
hadoop fs -du -s ${TABLE_PATH}
Parquet 格式表的测试
创建 parquet 格式的表,设置自动统计统计信息 hive.stats.autogather=true
后,插入同样一份数据到 parquet 格式的表。
然后使用 desc formatted $TABLE_NAME
显示的部分内容如下
numFiles 6 numRows 2160165 rawDataSize 73445610 totalSize 190743601
可以看到 rawDataSize,少了很多,甚至比 totalSize 都少。
问题解决
这是 Hive 的一个 bug,在 Hive 4.0 修复,参考HIVE-20079
Hive 3.1.2 Parquet 格式表的 rawDataSize 统计信息不正确相关推荐
- 对于经常需要truncate的表进行固定统计信息
为什么80%的码农都做不了架构师?>>> 大家做过统计的一些存储过程可能会知道,我们经常有这类表,要先truncate它,执行插入,再在执行相关sql,这就会导致有一个时间误差 ...
- oracle 查询表里信息_如何查看表的历史统计信息
多谢Yong和netbanker的回复,查看了一下,发现10205已经提供了 FUNCTION DIFF_TABLE_STATS_IN_HISTORY RETURNS DBMS_STATS Argum ...
- 如何查看表和索引的统计信息
如何查看表和索引的统计信息 原文:如何查看表和索引的统计信息 这几天要求做一个服务器的统计信息,主要针对表和索引.下面我就简单分享几个查询数据表和索引统计信息的方法: 1.使用T-SQL 语句实现: ...
- mysql统计信息表行数不准确_mysql SQL调优-统计信息不准的原因
问题现象: 开发报告查询语句突然变慢. 处理过程: 1.在从库查看执行计划: 并且执行查询,结果是返回159条数据,只需要0.58秒,并不慢 (2)了解到原来应用连接的是主库,随即上主库查看执行计划, ...
- 藏在表分区统计信息背后的小秘密
藏在表分区统计信息背后的小秘密 藏在表分区统计信息背后的小秘密 原创 2017-09-19 曾令军 数据和云 云和恩墨技术专家,8年数据库运维经验.思维敏捷,擅长于数据库开发.解决棘手的数据库故障和性 ...
- oracle表数据收集,Oracle收集对象统计信息
Oracle9i之前,由DBA负责收集对象统计信息.默认情况下,数据库不提供对象统计信息.到了oracle10g,在创建数据库的时候,就创建 一. 概述 Oracle9i之前,由DBA负责收集对象统计 ...
- linux怎么看文件是否orc格式,hive文件存储格式orc,parquet,avro对比
orc文件存储格式 ORC文件也是以二进制方式列式存储的,所以是不可以直接读取,ORC文件也是自解析的,它包含许多的元数据,这些元数据都是同构ProtoBuffer进行序列化的.文件结构如下 ORC文 ...
- Hive中text格式和orc格式表的索引性能相关总结
Hive中text格式和orc格式表的索引性能相关总结 text表索引的使用: 建表: create table aa (O_ORDERKEY int, O_CUSTKEY int, O_ORDER ...
- 【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式
一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...
最新文章
- jQuey基础思维导图梳理1
- java中byte的范围计算
- 前端实现连连看小游戏(1)
- stm32f4 hs 电路_电动机控制电路识图一看就懂
- python终端会话_如何为Python终端提供持久性历史记录
- 高级数据结构及应用 —— 使用 bitmap 进行字符串去重
- labelme批量转换json
- python编写网络防火墙_firewall防火墙
- python打印的时候print(f“*******“) 的括号里的 f‘ ‘ 是什么意思 ?
- TIA protal与SCL从入门到精通(6)——函数循环处理
- html显示在最上,让DIV对象显示在最上层
- PPT中如何将图片灰化(黑白化)
- 墨者学院—Webmin未经身份验证的远程代码执行(简单复习)
- matlab矩阵运算中“.”的使用
- C#毕业设计——基于C#+asp.net+sqlserver的网络在线考试系统设计与实现(毕业论文+程序源码)——网络在线考试系统
- 一台计算机连接两个投影,如何实现多台电脑连接一台投影仪并快速切换
- 无盘服务器chkdsk *: /f)修复命令,用chkdsk命令修复变成RAW的硬盘
- Android 四大组件丨BroadcastReceiver
- ColorImpact v2.8.1.378 汉化注册版
- 明基扫描仪二次开发包