hive表存储格式的转化

hive四种存储格式介绍

一、四种存储格式介绍

1、TextFile

TextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。

2、RCFile

Record Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常

写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。

RCFile是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读

取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。

3、ORCFile

存储方式:数据按行分块 每块按照列存储 ,压缩快 快速列存取,效率比rcfile高,是rcfile的改良版本,相比RC能够更好的压

缩,能够更快的查询,但还是不支持模式演进。

4、Parquet

Parquet能够很好的压缩,有很好的查询性能,支持有限的模式演进。但是写速度通常比较慢。这中文件格式主要是用在

hive表存储格式的转化

insert overwrite table xxx  select * from yyy

上传一个文件,默认是txt格式,然后创建2张表。一个是TextFile格式,一个是另一种格式yyy

load data local inpath '路径' into table xxx;
insert overwrite table xxx  select * from yyy

完成验证一下就可以了

hive表存储格式的转化相关推荐

  1. 数据治理 - TextFile格式Hive表压缩优化实践

    背景 由于缺少统一的规范落地和平台工具支持,大部分的业务人员.技术人员在建表时并没有考虑到 Hive表 格式的重要性.随着数据量的上升,TextFile格式的存储浪费情况越来越严重 在数仓建设中,除了 ...

  2. 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 在最开始学习Hudi源码 ...

  3. 将服务器文件加载至hive表中,Hive入门到剖析(四)

    10 Hive体系架构 10.1概念 用户接口:用户访问Hive的入口 元数据:Hive的用户信息与表的MetaData 解释器:分析翻译HQL的组件 编译器:编译HQL的组件 优化器:优化HQL的组 ...

  4. Hive Sql 大全(hive函数,hive表)

    Hive Sql 大全 本节基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一.DDL语句(数据定义语句): 对数据库的操作:包含创建.修改数据库 对数据表的操作 ...

  5. date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表

    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...

  6. 大数据开发实战:Hive表DDL和DML

    1.Hive 表 DDL 1.1.创建表 Hive中创建表的完整语法如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS]  table_name [ (col_nam ...

  7. hive 数据存储格式详解

    Hive的三种文件格式:TEXTFILE.SEQUENCEFILE.RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据 ...

  8. MapReduce基础开发之三字段处理并输出Hive表

    1.MR设计和开发    1)设计:      输入:用户名 | 数字ip | 时间戳 |  url      MR处理:正则表达式匹配url,满足则解析url并转换ip和时间戳,      输出:用 ...

  9. (转载)hive文件存储格式

    对于hive格式的认识,先转载后实践再加深认识. 转载地址:http://blog.csdn.net/yfkiss/article/details/7787742 hive在建表是,可以通过'STOR ...

最新文章

  1. matlab与acess连接问题
  2. mysql 外键引擎_对于mysql的外键和mysql的存储引擎
  3. 两个数组进行比较_LeetCode 718. 最长重复子数组 | Python
  4. linux 查看flash大小,Linux OpenWRT查看CPU,RAM,Flash信息参数
  5. Python类的实例属性详解
  6. C和指针之Eratosthenes-埃拉托斯特尼筛方法找质数
  7. apache derby_Apache Derby数据库用户和权限
  8. JS对url进行编码和解码(三种方式区别)
  9. Red5 修改RTMP监听端口和ip
  10. java appender_log4j的Appenders配置方法
  11. 高通说要抢占AI生态入口,投资商汤摩拜,明年推NPU芯片
  12. jquery新版本旧版本之间的坑
  13. 9.23 未来的规划 BEC
  14. java画布canvas_画布(Canvas类)初探
  15. icepdf 将pdf转换为图片
  16. 2020年GitHub上50个最受程序员欢迎的PHP开源项目
  17. 人工智能AI讲师NLP培训讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-23
  18. cinemachine 相机跟踪物体
  19. Xamarin Android安装教程(2016最新亲测安装版)
  20. 如何利用ps去除图片水印和绘制图案

热门文章

  1. 保存ResultSet中的数据(Java Source Code)
  2. 性能测试之:loadrunner 报lr_load_dll 失败 CCI trace: vuser_init.c(6): ci_load_dll查证及解决过程...
  3. Redis 网络编程
  4. linux gulp安装教程,Linux环境NodeJS安装及Gulp安装
  5. 【python实战】使用 pygame 写一个 flappy-bird 类小游戏 | 涉及思路+项目结构+代码详解 | 新手向
  6. 基于MATLAB的夜间车牌识别处理
  7. linux环境 前端开发环境搭建,Linux运维知识之linux 前端环境搭建
  8. 《python基础教程(第二版)》学习笔记 基础部分(第1章)
  9. 北京网信金服PHP薪资_2020互联网大厂薪资曝光:程序员薪资将会变成白菜价?...
  10. IIS URL Rewriting 和 ASP.NET routing(下)