什么是parquet

parquet是为了数据的高性能存储和索取而生的列式数据存储格式,同时parquet提供了高效的数据压缩和编码方案来增强处理复杂数据块的性能。

Reference:

  • what-is-parquet
  • Apache Parquet

parquet特性

  • 开源免费
  • 无语言论数据格式
  • 基于列的数据格式:节省空间且提高了分析查询的速度
  • 高性能数据压缩和解压缩
  • 支持复杂的数据类型和高级的嵌套数据类型

parquet带来的好处

  • 存储任何类型的大数据(结构化数据、图片、视频、文档)
  • 为不同数据类型的列提供高性能的数据压缩和灵活的编码方案
  • 增加数据的吞吐量且提升了查询的性能(通过类似于数据跳跃的技术,使得查询过程不需要读取所有数据)

parquet使用record-shredding(记录粉碎)和assembly algorithm(组装算法)实现,并且包含了复杂的数据结构用来存储数据。Parquet 已针对批量处理复杂数据进行了优化,并具有用于高效数据压缩和编码类型的不同方式。这种方法最适合那些需要从大表中读取某些列的查询。Parquet 只能读取所需的列,因此大大减少了 IO。

列格式的数据存储优势

  • 相比于行式存储结构,列式存储在聚合查询上面花费更少的时间,这种存储方式已转化为节省硬件并最大限度地减少访问数据的延迟
  • parquet由分组(group)组成,所以其支持高级嵌套数据结构,Parquet 数据文件的布局针对处理大量数据的查询进行了优化,每个文件的数据量在千兆字节范围内。
  • parquet提供了灵活的压缩选项和高效的编码方式,由于每列的数据类型非常相似,因此每列的压缩很简单(这种方式甚至会使查询更快),其次,不同的数据也可以使用不同的压缩方式。
  • parquet最适用于交互式和无服务技术。

parquet和csv之间区别的比较

csv是大家再熟悉不过的存储数据的格式了。

Parquet 已帮助其用户将大型数据集的存储需求减少了至少三分之一,此外,其大大提高了数据的浏览和反序列化时间,从而降低了总成本。
下表展示了将数据由csv转成parquet所节省的花销:

Dataset Size on Amazon S3 Query Run Time Data Scanned Cost
Data stored as CSV files 1 TB 236 seconds 1.15 TB $5.75
Data stored in Apache Parquet Format 130 GB 6.78 seconds 2.51 GB $0.01
Savings 87% less when using Parquet 34x faster 99% less data scanned 99.7% savings

Apache parquet介绍相关推荐

  1. Apache Drill介绍-SQL语句和系统表查询

    Apache Drill介绍-SQL语句和系统表查询 Apache Drill 主要用于查询,主要关注select 和 建表语句,Drill 支持select 很标准, 这次主要介绍create语句, ...

  2. Apache Parquet 技术干货分享

    Parquet 是一种面向分析的.通用的列式存储格式,兼容各种数据处理框架比如 Spark.Hive.Impala 等,同时支持 Avro.Thrift.Protocol Buffers 等数据模型. ...

  3. Parquet介绍及简单使用

    ==> 什么是parquet         Parquet 是列式存储的一种文件类型 ==> 官网描述: Apache Parquet is a columnar storage for ...

  4. mysql parquet_Spark与Apache Parquet

    七十年代时,有一长辈连练铁砂掌,功夫成了之后,可以掌断五砖,凌空碎砖,威风得不得了.时至八十年代,只能掌断三砖.到九十年代只能一砖一砖的断了.他说,一直以为功力退步了,后来才知道烧砖的配方改了. 数据 ...

  5. Apache Parquet 干货分享

    最近一个月被两个小主折磨得七荤八素的,真是一对甜蜜的负担.生活还要继续,最近先转几篇高质量的文章,后续要恢复写作了,大家有什么想看的,可以私信我. -------------------------- ...

  6. Apache Spark 介绍的演讲ppt (slice),全英文

    这里是本人制作的Apache Spark 介绍的演讲ppt,全英文.这里粘贴部分截图,具体可到相应的链接下载ppt文件,ppt文件中有动画: 下载地址:https://download.csdn.ne ...

  7. Apache Tez介绍,术语,安装,监控等

    目录 1 Apache Tez 1 1.1 Apache Tez介绍 1 1.2 术语介绍 1 1.3 软件准备 2 1.4 设置tez-ui 3 1.4.1 找到war包 3 1.4.2 将tez- ...

  8. 《从0到1学习Flink》—— Apache Flink 介绍

    前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topi ...

  9. 开源性能测试工具 - Apache ab 介绍

    开源性能测试工具 - Apache ab 介绍 简介 ab的全称是ApacheBench,是 Apache 附带的一个小工具,专门用于 HTTP Server 的benchmark testing,可 ...

最新文章

  1. 高铁转地铁不想重复安检?多地已有举措
  2. Node的垃圾回收机制与内存溢出捕获(上)
  3. OpenCV imgcodecs写入的实例(附完整代码)
  4. WCF 异常(原创:灰灰虫的家http://hi.baidu.com/grayworm)
  5. mysql的增量备份方法_Mysql 增量备份,全部备份实现方法以及自动化脚本
  6. 一个大屏监控380个泵房,13000个设备,智能水务是怎么实现的?
  7. if test 多条件_秒懂Python编程中的if __name__ == #x27;main#x27; 作用和原理
  8. python如何将数据保存到本地json文件
  9. 在使用DelphiXE3和SQLite3进行程序开发时,解决最后一个字符乱码的问题
  10. Android心得1.5--第一次搭建Android环境的心得和第一个应用程序部分代码解析
  11. php概率算法(转)
  12. KiCad: 一个电子原理图设计和布局创建套件
  13. 混合溶剂中的高分子凝胶中的渗透压的一般计算
  14. Android系统 固定住CPU频率
  15. BZOJ.4340.[BJOI2015]隐身术(后缀数组 搜索)
  16. php 验证码数字英文的,PHP 创设扭曲英文验证码
  17. TI官网注册账号一直卡人机识别问题
  18. python编码使用ascii编码_Python中的编码问题:ASCII码 Unicoden编码 UTF-8编码
  19. 基于K210的MNIST手写数字识别
  20. 【ZT】一个程序占用内存的分类

热门文章

  1. 第3章 第1节-基于采样的路径规划-PRMRRT及其优化
  2. 部署Oracle数据库11g提高中型企业竞争力
  3. Kali渗透测试——被动信息收集之Recon-NG框架
  4. 开始冒险!探索 The Sandbox 元宇宙中的九龙城寨!
  5. 【leetcode】P100相同的树
  6. Andriod中网络编程实例
  7. Lodash 中的常用函数
  8. 山东大学陈强教授的介绍及相关资源
  9. 前端做CRM管理系统是做什么_悟空CRM:CRM系统能够帮助企业做什么?
  10. 肇兴:男人的天堂,来了就不想走--义工篇