hive表存储格式的转化
hive表存储格式的转化
hive四种存储格式介绍
一、四种存储格式介绍
1、TextFile
TextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。
2、RCFile
Record Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常
写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。
RCFile是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读
取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
3、ORCFile
存储方式:数据按行分块 每块按照列存储 ,压缩快 快速列存取,效率比rcfile高,是rcfile的改良版本,相比RC能够更好的压
缩,能够更快的查询,但还是不支持模式演进。
4、Parquet
Parquet能够很好的压缩,有很好的查询性能,支持有限的模式演进。但是写速度通常比较慢。这中文件格式主要是用在
hive表存储格式的转化
insert overwrite table xxx select * from yyy
上传一个文件,默认是txt格式,然后创建2张表。一个是TextFile格式,一个是另一种格式yyy
load data local inpath '路径' into table xxx;
insert overwrite table xxx select * from yyy
完成验证一下就可以了
hive表存储格式的转化相关推荐
- 数据治理 - TextFile格式Hive表压缩优化实践
背景 由于缺少统一的规范落地和平台工具支持,大部分的业务人员.技术人员在建表时并没有考虑到 Hive表 格式的重要性.随着数据量的上升,TextFile格式的存储浪费情况越来越严重 在数仓建设中,除了 ...
- 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 在最开始学习Hudi源码 ...
- 将服务器文件加载至hive表中,Hive入门到剖析(四)
10 Hive体系架构 10.1概念 用户接口:用户访问Hive的入口 元数据:Hive的用户信息与表的MetaData 解释器:分析翻译HQL的组件 编译器:编译HQL的组件 优化器:优化HQL的组 ...
- Hive Sql 大全(hive函数,hive表)
Hive Sql 大全 本节基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一.DDL语句(数据定义语句): 对数据库的操作:包含创建.修改数据库 对数据表的操作 ...
- date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...
- 大数据开发实战:Hive表DDL和DML
1.Hive 表 DDL 1.1.创建表 Hive中创建表的完整语法如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [ (col_nam ...
- hive 数据存储格式详解
Hive的三种文件格式:TEXTFILE.SEQUENCEFILE.RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据 ...
- MapReduce基础开发之三字段处理并输出Hive表
1.MR设计和开发 1)设计: 输入:用户名 | 数字ip | 时间戳 | url MR处理:正则表达式匹配url,满足则解析url并转换ip和时间戳, 输出:用 ...
- (转载)hive文件存储格式
对于hive格式的认识,先转载后实践再加深认识. 转载地址:http://blog.csdn.net/yfkiss/article/details/7787742 hive在建表是,可以通过'STOR ...
最新文章
- matlab与acess连接问题
- mysql 外键引擎_对于mysql的外键和mysql的存储引擎
- 两个数组进行比较_LeetCode 718. 最长重复子数组 | Python
- linux 查看flash大小,Linux OpenWRT查看CPU,RAM,Flash信息参数
- Python类的实例属性详解
- C和指针之Eratosthenes-埃拉托斯特尼筛方法找质数
- apache derby_Apache Derby数据库用户和权限
- JS对url进行编码和解码(三种方式区别)
- Red5 修改RTMP监听端口和ip
- java appender_log4j的Appenders配置方法
- 高通说要抢占AI生态入口,投资商汤摩拜,明年推NPU芯片
- jquery新版本旧版本之间的坑
- 9.23 未来的规划 BEC
- java画布canvas_画布(Canvas类)初探
- icepdf 将pdf转换为图片
- 2020年GitHub上50个最受程序员欢迎的PHP开源项目
- 人工智能AI讲师NLP培训讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-23
- cinemachine 相机跟踪物体
- Xamarin Android安装教程(2016最新亲测安装版)
- 如何利用ps去除图片水印和绘制图案
热门文章
- 保存ResultSet中的数据(Java Source Code)
- 性能测试之:loadrunner 报lr_load_dll 失败 CCI trace: vuser_init.c(6): ci_load_dll查证及解决过程...
- Redis 网络编程
- linux gulp安装教程,Linux环境NodeJS安装及Gulp安装
- 【python实战】使用 pygame 写一个 flappy-bird 类小游戏 | 涉及思路+项目结构+代码详解 | 新手向
- 基于MATLAB的夜间车牌识别处理
- linux环境 前端开发环境搭建,Linux运维知识之linux 前端环境搭建
- 《python基础教程(第二版)》学习笔记 基础部分(第1章)
- 北京网信金服PHP薪资_2020互联网大厂薪资曝光:程序员薪资将会变成白菜价?...
- IIS URL Rewriting 和 ASP.NET routing(下)