Parquet文件格式简介
parquet发展
parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发, Parquet的灵感来自于2010年Google发表的Dremel论文,文中介绍了一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能,在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。
官网介绍
无论数据处理框架,数据模型或编程语言的选择如何,Apache Parquet都是Hadoop生态系统中任何项目可用的列式存储格式。
特点
1、可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
2.压缩编码可以降低磁盘存储空间。。
3.只读取需要的列,支持向量运算,能够获取更好的扫描性能。
一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。
header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。
文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。
footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。
Parquet文件格式简介相关推荐
- yaml 文件格式简介
from: http://www.cnblogs.com/phpgo/p/6480107.html .yaml 文件格式简介 命名 YAML 的意思其实是:"Yet Another Mark ...
- AVI文件格式简介与WAV文件分析
AVI文件格式简介与WAV文件分析 AVI文件格式(回答问题) 所有AVI文件至少包含2个必须的LIST Chunk和一个索引Chunk Chunk: LIST Chunk: 小端:数据的低位保存在内 ...
- Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存
Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存 列式存储parquet文件格式介绍
- 简单理解parquet文件格式——按列存储和元数据存储
简介 Apache Parquet是一种常见的列式存储文件格式,常用于Pig, Spark, Hive等大数据组件中,其后缀是.parquet. 核心特点有: 跨平台 可被各种文件系统识别的格式 按列 ...
- M3U8 文件格式简介
HLS协议 HLS是一个由苹果公司提出的基于 HTTP 的流媒体网络传输协议,传输内容包括两部分,一是M3U8描述文件,二是TS媒体文件. 工作原理:整个流分成一个个小的基于 HTTP 的ts格式文件 ...
- java 生成parquet文件格式,使用Java API将Parquet格式写入HDFS,而不使用Avro和MR
What is the simple way to write Parquet Format to HDFS (using Java API) by directly creating Parquet ...
- parquet文件格式——本质上是将多个rows作为一个chunk,同一个chunk里每一个单独的column使用列存储格式,这样获取某一row数据时候不需要跨机器获取...
Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问.Cloudera Impala也将使用Parquet作为底层的存 ...
- GERBER文件格式简介
GERBER文件是一种国际标准的光绘格式文件,它包含RS-274-D和RS-274-X两种格式,其中RS-274-D称为基本GERBER格式,并要同时附带D码文件才能完整描述一张图形;RS-274-X ...
- 各种烧写文件格式简介-ELF Hex Bin axf
转载地址:http://blog.chinaunix.net/uid-20321537-id-1966794.html 一,ELF Executable and linking format(ELF) ...
- GZIP文件格式简介
由于最近用到了gzip格式相关的东西,所以网上找找可用的资料. 本文转帖自:http://blog.chinaunix.net/u/22878/showart_374215.html GZIP最早由J ...
最新文章
- MapReduce_自学过程(一)
- .net中从GridView中导出数据到excel(详细)
- 19年8月 字母哥 第一章 spring boot 2.x基础及概念入门 这里全部看完了 热部署没出来 第二章在前面2页 用热点公司网不行
- 1-3移动均线交叉策略2
- HTML P不能包含块级元素(包括自身)
- Mac安装MySQL8碰到的问题
- UVC协议CT_ZOOM_RELATIVE_CONTROL选择子放大缩小停止的问题
- vscode编程字体设置与修改
- 传感器学习——TB6612
- autojs连连看脚本可视化
- PS像素,分辨率的概念
- 国内移动广告平台的现状对比(2010年8月-10月)
- Linux运维(指令全)
- maven镜像源及代理配置
- 无法在已有的 xxxxxxx“上还原文件 zzz。请重新发出 RESTORE 语句,用 WITH REPLACE 来覆盖原先存在的文件
- esp32cam.cpp:30:3: error: ‘camera_sensor_info_t’ was not declared in this scope camera_sensor_info_t
- 细粒度识别 | 百度细粒度识别方案
- 玩qq游戏提示计算机内存不足,为什么电脑运行游戏后提示内存不足
- 关于Vue的就地复用
- Python+Scrapy爬取腾讯新闻首页所有新闻及评论
热门文章
- 【深入理解JS核心技术】3. 调用、应用和绑定有什么区别
- 谈谈在深圳挤公交那些事
- cadence SPB17.4 - 保存和恢复颜色配置
- [Xcode]XcodeGhost问题的检查和验证
- 考研高数——书本资料选择复习规划
- c#电子教鞭(屏幕画笔)快捷键ctrl+q
- selnium 判断页面加载完成_Selenium_等待页面加载完毕
- 诺诺打赏源码_2020二开诺诺视频打赏源码/VIP付费看视频带试看 已对接支付+代理...
- 明华RD读卡器校验密码问题
- 基于Vue和Spring Boot的在线视频播放系统 (模仿咪咕视频)