Hive 存储格式入门
存储格式
hive的存储格式分为两大类:一类纯文本文件
,一类是二进制文件
存储。
第一类: 纯文本文件存储
textfile
: 纯文本文件存储格式,不压缩,也是hive
的默认存储格式,磁盘开销大,数据解析开销大
第二类:二进制文件存储
sequencefile
:
会压缩,不能使用load方式加载数据parquet
:
会压缩,不能使用load方式加载数据rcfile
:
会压缩,不能load。查询性能高,写操作慢,所需内存大,计算量大。此格式为行列混合存储,hive在该格式
下,会尽量将附近的行和列的块存储到一起。orcfile
:rcfile的升级版
存储格式的配置项
<property><name>hive.default.fileformat</name><value>TextFile</value><description>Expects one of [textfile, sequencefile, rcfile, orc].Default file format for CREATE TABLE statement. Users can explicitly override it by CREATE TABLE ... STORED AS [FORMAT]</description>
</property>
hiev默认用的是TextFile
,就是说不压缩
hive> set hive.default.fileformat;
hive.default.fileformat=TextFile
案例
保存为rcfile
测试
create table emptest
(empno int,ename string,job string,mgr int,hiredate date,sal double,comm double,deptno int
)row format delimitedfields terminated by ','stored as rcfile;
插入数据
insert into emptest
select * from emp;
之后可以进行查询,也可以去hdfs上查看一下,这个是没有后缀名的,看不出是rcfile.但是可以下载后用notepad打开,看一下
确认是rcfile
格式,大小250B
保存为textFile
测试
create table emptest1
(empno int,ename string,job string,mgr int,hiredate date,sal double,comm double,deptno int
)row format delimitedfields terminated by ','stored as textfile;
insert into emptest1 select * from emp;
总结
- hive不止可以保存成
textfile
格式,可以根据需求选择
Hive 存储格式入门相关推荐
- Hive从入门到放弃——HiveQL表级别DDL设计的艺术性(五)
HiveQL数据库中的表DDL操作 博客Hive从入门到放弃--HiveQL数据库级别DDL设计的艺术性(四)聊完了数据库的基本操作,我们再来聊聊Hive内表的操作. 创建表 官方推荐建表的结 ...
- Hive 快速入门(全面)
转载: https://www.codercto.com/a/5110.html 前言 我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的 ...
- hadoop hive hbase 入门学习 (二)
hadoop 自学系列 hadoop hive hbase 入门学习 (一) hadoop安装.hdfs学习及mapreduce学习 hadoop 软件下载 (hadoo ...
- 试图加载格式不正确的程序_好程序员大数据学习路线之hive存储格式
好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fil ...
- 深圳大数据培训:好程序员大数据学习路线之hive 存储格式
深圳大数据培训:好程序员大数据学习路线之hive 存储格式 好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . ...
- Hive从入门到放弃——Hive表DML的艺术性(八)
背 景 HiveQL语法和MySQL的语法很像,当然Hive本身作为大数据的数据仓库,本身对数据的修改和删除并不铭感,虽然Hive支持通过ORC为存储文件实现数据的删除和修改,但是这个功能相对比较 ...
- Hive存储格式之ORC File详解,什么是ORC File
文章目录 概述 文件存储结构 Stripe Index Data Row Data Stripe Footer 两个补充名词 Row Group Stream File Footer 条纹信息 列统计 ...
- Apache Hive 快速入门 (CentOS 7.3 + Hadoop-2.8 + Hive-2.1.1)
2019独角兽企业重金招聘Python工程师标准>>> 本文节选自<Netkiller Database 手札> 第 63 章 Apache Hive 目录 63.1. ...
- 数据仓库—stg层_数据仓库之Hive快速入门 - 离线实时数仓架构
数据仓库VS数据库 数据仓库的定义: 数据仓库是将多个数据源的数据经过ETL(Extract(抽取).Transform(转换).Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析 ...
最新文章
- 解决xcode升级之后安装的插件失效
- python 面向对象(三大特性)
- 一个漫长的程序人生路程,如何突破5000元大关?几年前的2-3线城市的参考,现在未必...
- 怎么在vs中查看一个数组的所有元素
- python 输入文件名查找_python 查找文件名包含指定字符串的方法
- 判断条件UVa 10192 - Vacation(LCS水题)
- 面试常备题(三)----顺时针打印矩阵
- OpenStack 已死?
- windows 服务的安装与卸载之bat脚本命令
- KX022-1020 3轴 传感器 LGA RT8577AGQW LED驱动器
- win7没有语音识别怎么办|win7系统语音识别设置方法
- 前端开发者思考:假如5年后你是开发总监
- 红​字​和​蓝​字​冲​销(红字冲正、蓝字冲正)
- Spring框架 编程式事务 事务的传播行为(一)
- 项目启动后sqlSessionFactory获取不到创建数据库连接失败
- 12月18日科技资讯|支付宝、微信回应3D面具破解人脸识别;ofo 否认「发币」;Kafka 2.4.0 发布
- 机械转行前端,半年零基础自学的心路历程
- python视频解析UI界面
- 计算机售电卡端口错误怎么弄,ZTSD7000售电系统使用简易说明.doc
- webM文件解析工具
热门文章
- win7屏保时间设置_015时间轮盘电脑版
- windows系统bat批处理 网络设置大全 设置静态、动态IP地址
- 淘宝联盟 推广链接 API取链 转链报错 传入参数错误,请检查adzone_id是否属于appkey拥有者
- 对数组操作[:,:4]
- linux pkill窗口,在Linux系统中pkill命令的基础,附pkill命令的使用示例
- 单片机 架构 程序 经验总结_收藏!牛人总结的单片机应用程序架构
- php laravel 理解,程序员-说一下PHP框架Laravel,如何理解她的思想
- android dialog动画_Android超级酷炫实用的UI框架
- 一道经典面试题 你是是否理解 if()没有大括号与有大括号区别吗?
- 冒泡排序java代码_面试官问我插入排序和冒泡排序哪个更牛逼?