parquet发展

parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发, Parquet的灵感来自于2010年Google发表的Dremel论文,文中介绍了一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能,在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

官网介绍

无论数据处理框架,数据模型或编程语言的选择如何,Apache Parquet都是Hadoop生态系统中任何项目可用的列式存储格式。

特点

1、可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
2.压缩编码可以降低磁盘存储空间。。
3.只读取需要的列,支持向量运算,能够获取更好的扫描性能。

一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。
header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。
文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。
footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。

Parquet文件格式简介相关推荐

  1. yaml 文件格式简介

    from: http://www.cnblogs.com/phpgo/p/6480107.html .yaml 文件格式简介 命名 YAML 的意思其实是:"Yet Another Mark ...

  2. AVI文件格式简介与WAV文件分析

    AVI文件格式简介与WAV文件分析 AVI文件格式(回答问题) 所有AVI文件至少包含2个必须的LIST Chunk和一个索引Chunk Chunk: LIST Chunk: 小端:数据的低位保存在内 ...

  3. Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存

    Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存 列式存储parquet文件格式介绍

  4. 简单理解parquet文件格式——按列存储和元数据存储

    简介 Apache Parquet是一种常见的列式存储文件格式,常用于Pig, Spark, Hive等大数据组件中,其后缀是.parquet. 核心特点有: 跨平台 可被各种文件系统识别的格式 按列 ...

  5. M3U8 文件格式简介

    HLS协议 HLS是一个由苹果公司提出的基于 HTTP 的流媒体网络传输协议,传输内容包括两部分,一是M3U8描述文件,二是TS媒体文件. 工作原理:整个流分成一个个小的基于 HTTP 的ts格式文件 ...

  6. java 生成parquet文件格式,使用Java API将Parquet格式写入HDFS,而不使用Avro和MR

    What is the simple way to write Parquet Format to HDFS (using Java API) by directly creating Parquet ...

  7. parquet文件格式——本质上是将多个rows作为一个chunk,同一个chunk里每一个单独的column使用列存储格式,这样获取某一row数据时候不需要跨机器获取...

    Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问.Cloudera Impala也将使用Parquet作为底层的存 ...

  8. GERBER文件格式简介

    GERBER文件是一种国际标准的光绘格式文件,它包含RS-274-D和RS-274-X两种格式,其中RS-274-D称为基本GERBER格式,并要同时附带D码文件才能完整描述一张图形;RS-274-X ...

  9. 各种烧写文件格式简介-ELF Hex Bin axf

    转载地址:http://blog.chinaunix.net/uid-20321537-id-1966794.html 一,ELF Executable and linking format(ELF) ...

  10. GZIP文件格式简介

    由于最近用到了gzip格式相关的东西,所以网上找找可用的资料. 本文转帖自:http://blog.chinaunix.net/u/22878/showart_374215.html GZIP最早由J ...

最新文章

  1. MapReduce_自学过程(一)
  2. .net中从GridView中导出数据到excel(详细)
  3. 19年8月 字母哥 第一章 spring boot 2.x基础及概念入门 这里全部看完了 热部署没出来 第二章在前面2页 用热点公司网不行
  4. 1-3移动均线交叉策略2
  5. HTML P不能包含块级元素(包括自身)
  6. Mac安装MySQL8碰到的问题
  7. UVC协议CT_ZOOM_RELATIVE_CONTROL选择子放大缩小停止的问题
  8. vscode编程字体设置与修改
  9. 传感器学习——TB6612
  10. autojs连连看脚本可视化
  11. PS像素,分辨率的概念
  12. 国内移动广告平台的现状对比(2010年8月-10月)
  13. Linux运维(指令全)
  14. maven镜像源及代理配置
  15. 无法在已有的 xxxxxxx“上还原文件 zzz。请重新发出 RESTORE 语句,用 WITH REPLACE 来覆盖原先存在的文件
  16. esp32cam.cpp:30:3: error: ‘camera_sensor_info_t’ was not declared in this scope camera_sensor_info_t
  17. 细粒度识别 | 百度细粒度识别方案
  18. 玩qq游戏提示计算机内存不足,为什么电脑运行游戏后提示内存不足
  19. 关于Vue的就地复用
  20. Python+Scrapy爬取腾讯新闻首页所有新闻及评论

热门文章

  1. 【深入理解JS核心技术】3. 调用、应用和绑定有什么区别
  2. 谈谈在深圳挤公交那些事
  3. cadence SPB17.4 - 保存和恢复颜色配置
  4. [Xcode]XcodeGhost问题的检查和验证
  5. 考研高数——书本资料选择复习规划
  6. c#电子教鞭(屏幕画笔)快捷键ctrl+q
  7. selnium 判断页面加载完成_Selenium_等待页面加载完毕
  8. 诺诺打赏源码_2020二开诺诺视频打赏源码/VIP付费看视频带试看 已对接支付+代理...
  9. 明华RD读卡器校验密码问题
  10. 基于Vue和Spring Boot的在线视频播放系统 (模仿咪咕视频)