ORCFILE,ParquetFile,CubeFile使用场景区别
这个其实是转自杭州第三次spark meetingup,华为的李昆大神的分享。
OLAP分析场景 | ORC File | Parquet File | Cube File |
Full scan one dimension | Fast | Fast | Median |
(Low Cardinality) | (只扫需要的列) | (只扫需要的列) | (只扫需要的列,但MDK较大) |
Full scan one dimension | Slow | Slow | Fast |
(High Cardinality) | (Stripe Level字典编码,需要重复解码) | (Row Group Level字典编码,需要重复解码) | (全局字典编码,无重复解码) |
Full scan multiple dimension aggregation | Slow | Slow | Fast |
(读取多行并做join) | (读取多行并做join) | (星型模型转换后无需join) | |
Filter single dimension | Slow | Very Slow | Fast |
(需要全扫描单列,可利用min/max跳过Stripe) | (需要全扫描单列,无索引) | (利用多维索引) | |
Filter multiple dimensions | Slow | Very Slow | Very Fast |
Select Year,ServiceName, | (需要全扫描多列,可利用min/max跳过Stripe) | (需要全扫描多列,无索引) | (利用多维索引) |
Filter on Measure | Slow | Slow | Slow |
(需要全扫描,可利用min/max跳过Stripe) | (需要全扫描,无索引) | (度量上无索引,需要全扫描) |
排版有些乱,大家凑合看一下。
从这个比较来看,大基数的全量多维的查询,CubeFile的优势是很明显的。
个人感觉,最大原因是ORCFile和ParquetFile他们是分块索引数据的,而CubeFile是全量索引数据的。现在理解的还比较浅,等深入理解后再来论这个的区别和关系。
ORCFILE,ParquetFile,CubeFile使用场景区别相关推荐
- 软件自动化测试工具有哪些?手工测试与自动化测试应用场景区别
常用的软件自动化测试工具有哪些?对于企业测试人员来说,工欲善其事必先利其器,了解软件测试工具能够更好的开展测试工作,为整体软件测试方案形成打下良好的基础.卓码软件测评小编整理了关于软件手工测试与自动化 ...
- 轻量级RTSP服务模块和RTSP推流模块适用场景区别
好多开发者一直搞不清轻量级RTSP服务SDK和RTSP推流SDK的区别(Github下载地址),以下是相关区别: 1. 轻量级RTSP服务模块:轻量级RTSP服务解决的核心痛点是避免用户或者开发者单独 ...
- HashTable,Dictionary,ConcurrentDictionary 的应用场景,区别,用法统计
https://www.cnblogs.com/yinrq/p/5584885.html 一.HashTable HashTable表示键/值对的集合.在.NET Framework中,Hashtab ...
- 动态IP是否比静态IP更安全?千万别误会静态IP和动态IP的使用场景区别
目录 前言 动态IP和静态IP 内网IP和外网IP 总结 前言 网际协议地址即IP地址,是人们在日常生活中需要经常接触到的名词,相信许多人都不陌生,因为现在非常多大数码产品.智能家居产品等都具备了连接 ...
- oracle与db2的应用场景区别,db2和oracle语句区别
1.取前N条记录 Oracle:Select * from TableName where rownum <= N; DB2:Select * from TableName fetch firs ...
- 适配器模式、代理模式、装饰器模式使用场景区别
适配器模式 适配器模式是提供和原先接口不一样的接口,做一个二次转换,原来的接口还是可以继续使用的. 代理模式 原先的接口是不能访问的(无权使用),只能通过代理来去访问原先接口.代理过程中可能会对原有接 ...
- OpenGL渲染视图种类及使用场景区别
- git reset三种模式区别和使用场景(hard,soft,mixed)
简单的理解三种模式: hard reset之后,以仓库为准,仓库,暂存区和工作区保持一致,不一致的全部清除: soft reset之后,工作区内容不变,只更新仓库内容,差异保留在index暂存区: m ...
- FD.io/VPP — VNF 应用场景
目录 文章目录 目录 OvS 与 DPDK/VPP 的应用场景区别 基于 DPDK 的 VNF 两种 VNF 形态 1.OvS-DPDK 在宿主机中提供数据平面,同时在 VNF 中采用 DPDK 加速 ...
最新文章
- R语言CRAN不包含的安装包下载并手动使用RStudio进行安装实战:以下载VRPM包及绘制彩色列线图为例
- 【Android 异步操作】AsyncTask 异步任务 ( 参数简介 | 方法简介 | 使用方法 | AsyncTask 源码分析 )
- 大数据之hadoop伪集群搭建与MapReduce编程入门
- Linux 2.4调度系统分析--转
- 20175320 2018-2019-2 《Java程序设计》第4周学习总结
- 局域网速度变慢的故障分析
- 牛客练习赛69C-旅行【结论,最大生成树】
- Good Bye 2021: 2022 is NEAR A-Integer Diversity(水题)
- 自定义搜索框,带提示信息的搜索框
- java future_Java并发编程之异步Future机制的原理和实现
- 18号是什么php,19年1月18号CSS浮动float
- Selenium UI自动化测试(六)WebDriver常用操作方法
- Quartz-第一篇 认识Quartz
- Multi-attributed heterogeneous graph convolutional network for bot detection(SCI CCF B)
- linux+硬盘热插拔原理,Linux下关于热插拔硬盘的指令
- windows服务器硬盘怎么扩容,亚马逊Amazon EC2 Windows服务器磁盘扩容操作步骤
- Ubuntu linux下运行xv6
- the system can not open the device or file specified解决方案
- 人工智能入门算法逻辑回归学习笔记
- 大数据的五大关键技术