这个其实是转自杭州第三次spark meetingup,华为的李昆大神的分享。

OLAP分析场景 ORC File Parquet File Cube File
Full scan one dimension Fast  Fast Median
(Low Cardinality) (只扫需要的列) (只扫需要的列) (只扫需要的列,但MDK较大)
Full scan one dimension Slow Slow Fast
(High Cardinality) (Stripe Level字典编码,需要重复解码) (Row Group Level字典编码,需要重复解码) (全局字典编码,无重复解码)
Full scan multiple dimension aggregation Slow Slow Fast
(读取多行并做join) (读取多行并做join) (星型模型转换后无需join)
Filter single dimension Slow Very Slow Fast
(需要全扫描单列,可利用min/max跳过Stripe) (需要全扫描单列,无索引) (利用多维索引)
Filter multiple dimensions Slow Very Slow Very Fast
Select Year,ServiceName,  (需要全扫描多列,可利用min/max跳过Stripe) (需要全扫描多列,无索引) (利用多维索引)
Filter on Measure Slow Slow Slow
(需要全扫描,可利用min/max跳过Stripe) (需要全扫描,无索引) (度量上无索引,需要全扫描)

排版有些乱,大家凑合看一下。

从这个比较来看,大基数的全量多维的查询,CubeFile的优势是很明显的。

个人感觉,最大原因是ORCFile和ParquetFile他们是分块索引数据的,而CubeFile是全量索引数据的。现在理解的还比较浅,等深入理解后再来论这个的区别和关系。

ORCFILE,ParquetFile,CubeFile使用场景区别相关推荐

  1. 软件自动化测试工具有哪些?手工测试与自动化测试应用场景区别

    常用的软件自动化测试工具有哪些?对于企业测试人员来说,工欲善其事必先利其器,了解软件测试工具能够更好的开展测试工作,为整体软件测试方案形成打下良好的基础.卓码软件测评小编整理了关于软件手工测试与自动化 ...

  2. 轻量级RTSP服务模块和RTSP推流模块适用场景区别

    好多开发者一直搞不清轻量级RTSP服务SDK和RTSP推流SDK的区别(Github下载地址),以下是相关区别: 1. 轻量级RTSP服务模块:轻量级RTSP服务解决的核心痛点是避免用户或者开发者单独 ...

  3. HashTable,Dictionary,ConcurrentDictionary 的应用场景,区别,用法统计

    https://www.cnblogs.com/yinrq/p/5584885.html 一.HashTable HashTable表示键/值对的集合.在.NET Framework中,Hashtab ...

  4. 动态IP是否比静态IP更安全?千万别误会静态IP和动态IP的使用场景区别

    目录 前言 动态IP和静态IP 内网IP和外网IP 总结 前言 网际协议地址即IP地址,是人们在日常生活中需要经常接触到的名词,相信许多人都不陌生,因为现在非常多大数码产品.智能家居产品等都具备了连接 ...

  5. oracle与db2的应用场景区别,db2和oracle语句区别

    1.取前N条记录 Oracle:Select * from TableName where rownum <= N; DB2:Select * from TableName fetch firs ...

  6. 适配器模式、代理模式、装饰器模式使用场景区别

    适配器模式 适配器模式是提供和原先接口不一样的接口,做一个二次转换,原来的接口还是可以继续使用的. 代理模式 原先的接口是不能访问的(无权使用),只能通过代理来去访问原先接口.代理过程中可能会对原有接 ...

  7. OpenGL渲染视图种类及使用场景区别

  8. git reset三种模式区别和使用场景(hard,soft,mixed)

    简单的理解三种模式: hard reset之后,以仓库为准,仓库,暂存区和工作区保持一致,不一致的全部清除: soft reset之后,工作区内容不变,只更新仓库内容,差异保留在index暂存区: m ...

  9. FD.io/VPP — VNF 应用场景

    目录 文章目录 目录 OvS 与 DPDK/VPP 的应用场景区别 基于 DPDK 的 VNF 两种 VNF 形态 1.OvS-DPDK 在宿主机中提供数据平面,同时在 VNF 中采用 DPDK 加速 ...

最新文章

  1. R语言CRAN不包含的安装包下载并手动使用RStudio进行安装实战:以下载VRPM包及绘制彩色列线图为例
  2. 【Android 异步操作】AsyncTask 异步任务 ( 参数简介 | 方法简介 | 使用方法 | AsyncTask 源码分析 )
  3. 大数据之hadoop伪集群搭建与MapReduce编程入门
  4. Linux 2.4调度系统分析--转
  5. 20175320 2018-2019-2 《Java程序设计》第4周学习总结
  6. 局域网速度变慢的故障分析
  7. 牛客练习赛69C-旅行【结论,最大生成树】
  8. Good Bye 2021: 2022 is NEAR A-Integer Diversity(水题)
  9. 自定义搜索框,带提示信息的搜索框
  10. java future_Java并发编程之异步Future机制的原理和实现
  11. 18号是什么php,19年1月18号CSS浮动float
  12. Selenium UI自动化测试(六)WebDriver常用操作方法
  13. Quartz-第一篇 认识Quartz
  14. Multi-attributed heterogeneous graph convolutional network for bot detection(SCI CCF B)
  15. linux+硬盘热插拔原理,Linux下关于热插拔硬盘的指令
  16. windows服务器硬盘怎么扩容,亚马逊Amazon EC2 Windows服务器磁盘扩容操作步骤
  17. Ubuntu linux下运行xv6
  18. the system can not open the device or file specified解决方案
  19. 人工智能入门算法逻辑回归学习笔记
  20. 大数据的五大关键技术

热门文章

  1. IP核引发的关于定,浮点数的认识
  2. 移动端总结和手机兼容问题
  3. solr教程 solr5.5
  4. 创建JAVASCRIPT对象3种方法
  5. 【夯实Mysql基础】mysql explain执行计划详解
  6. Kafka 0.10.0文档翻译二
  7. apache 目录访问加密 简单
  8. datalist 分页
  9. down 网卡端口周期性的up_Linux 中如何启用和禁用网卡?
  10. 一起学nRF51xx 12 -  flash