Hive 统计信息的设置和使用,请参考 HIVE Statistics(Hive 统计信息) 的说明和查询优化详解

使用 tpcds-3 数据集进行测试

ORC 格式表的测试

创建 orc 格式的表,设置自动统计统计信息 hive.stats.autogather=true 后,插入数据到 orc 格式的表。
然后使用 desc formatted $TABLE_NAME 显示的部分内容如下

 numFiles                6                   numRows                 2160165             rawDataSize             3947986476          totalSize               115653306

说明 6 个文件,2160165 行,原始数据量是 3947986476 字节,压缩后占用文件 115653306 字节。

用以下命令可以显示表的文件实际的总大小,可以看到,和 totalSize 对应的值一致。

hadoop fs -du -s ${TABLE_PATH}

Parquet 格式表的测试

创建 parquet 格式的表,设置自动统计统计信息 hive.stats.autogather=true 后,插入同样一份数据到 parquet 格式的表。
然后使用 desc formatted $TABLE_NAME 显示的部分内容如下

 numFiles                6                   numRows                 2160165             rawDataSize             73445610            totalSize               190743601

可以看到 rawDataSize,少了很多,甚至比 totalSize 都少。

问题解决

这是 Hive 的一个 bug,在 Hive 4.0 修复,参考HIVE-20079

Hive 3.1.2 Parquet 格式表的 rawDataSize 统计信息不正确相关推荐

  1. 对于经常需要truncate的表进行固定统计信息

    为什么80%的码农都做不了架构师?>>>    大家做过统计的一些存储过程可能会知道,我们经常有这类表,要先truncate它,执行插入,再在执行相关sql,这就会导致有一个时间误差 ...

  2. oracle 查询表里信息_如何查看表的历史统计信息

    多谢Yong和netbanker的回复,查看了一下,发现10205已经提供了 FUNCTION DIFF_TABLE_STATS_IN_HISTORY RETURNS DBMS_STATS Argum ...

  3. 如何查看表和索引的统计信息

    如何查看表和索引的统计信息 原文:如何查看表和索引的统计信息 这几天要求做一个服务器的统计信息,主要针对表和索引.下面我就简单分享几个查询数据表和索引统计信息的方法: 1.使用T-SQL 语句实现: ...

  4. mysql统计信息表行数不准确_mysql SQL调优-统计信息不准的原因

    问题现象: 开发报告查询语句突然变慢. 处理过程: 1.在从库查看执行计划: 并且执行查询,结果是返回159条数据,只需要0.58秒,并不慢 (2)了解到原来应用连接的是主库,随即上主库查看执行计划, ...

  5. 藏在表分区统计信息背后的小秘密

    藏在表分区统计信息背后的小秘密 藏在表分区统计信息背后的小秘密 原创 2017-09-19 曾令军 数据和云 云和恩墨技术专家,8年数据库运维经验.思维敏捷,擅长于数据库开发.解决棘手的数据库故障和性 ...

  6. oracle表数据收集,Oracle收集对象统计信息

    Oracle9i之前,由DBA负责收集对象统计信息.默认情况下,数据库不提供对象统计信息.到了oracle10g,在创建数据库的时候,就创建 一. 概述 Oracle9i之前,由DBA负责收集对象统计 ...

  7. linux怎么看文件是否orc格式,hive文件存储格式orc,parquet,avro对比

    orc文件存储格式 ORC文件也是以二进制方式列式存储的,所以是不可以直接读取,ORC文件也是自解析的,它包含许多的元数据,这些元数据都是同构ProtoBuffer进行序列化的.文件结构如下 ORC文 ...

  8. Hive中text格式和orc格式表的索引性能相关总结

    Hive中text格式和orc格式表的索引性能相关总结 text表索引的使用: 建表: create table aa (O_ORDERKEY int, O_CUSTKEY int, O_ORDER ...

  9. 【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式

    一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...

最新文章

  1. jQuey基础思维导图梳理1
  2. java中byte的范围计算
  3. 前端实现连连看小游戏(1)
  4. stm32f4 hs 电路_电动机控制电路识图一看就懂
  5. python终端会话_如何为Python终端提供持久性历史记录
  6. 高级数据结构及应用 —— 使用 bitmap 进行字符串去重
  7. labelme批量转换json
  8. python编写网络防火墙_firewall防火墙
  9. python打印的时候print(f“*******“) 的括号里的 f‘ ‘ 是什么意思 ?
  10. TIA protal与SCL从入门到精通(6)——函数循环处理
  11. html显示在最上,让DIV对象显示在最上层
  12. PPT中如何将图片灰化(黑白化)
  13. 墨者学院—Webmin未经身份验证的远程代码执行(简单复习)
  14. matlab矩阵运算中“.”的使用
  15. C#毕业设计——基于C#+asp.net+sqlserver的网络在线考试系统设计与实现(毕业论文+程序源码)——网络在线考试系统
  16. 一台计算机连接两个投影,如何实现多台电脑连接一台投影仪并快速切换
  17. 无盘服务器chkdsk *: /f)修复命令,用chkdsk命令修复变成RAW的硬盘
  18. Android 四大组件丨BroadcastReceiver
  19. ColorImpact v2.8.1.378 汉化注册版
  20. 明基扫描仪二次开发包

热门文章

  1. html标签库大全,HTML的标签大全.
  2. Css 实现边界 凹陷 状态
  3. 使用DevExpress WPF主题设计器轻松创建Office 2019绿色主题(二)
  4. 人像动漫化 毕业设计记录
  5. 基于图像和激光的多模态点云融合与视觉定位【100010392】
  6. tableView 的使用步骤和方法
  7. 中国现如今的蜂蜜真假口头语
  8. 输出字符串,遇空格换行
  9. 工业电子台账最简单的例子:设置模板后一键导入数据
  10. k8s使用外部供应商代理使用ceph