存储格式

hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储。

第一类: 纯文本文件存储
textfile: 纯文本文件存储格式,不压缩,也是hive的默认存储格式,磁盘开销大,数据解析开销大

第二类:二进制文件存储

  • sequencefile:
    会压缩,不能使用load方式加载数据
  • parquet:
    会压缩,不能使用load方式加载数据
  • rcfile:
    会压缩,不能load。查询性能高,写操作慢,所需内存大,计算量大。此格式为行列混合存储,hive在该格式
    下,会尽量将附近的行和列的块存储到一起。
  • orcfile:rcfile的升级版

存储格式的配置项

<property><name>hive.default.fileformat</name><value>TextFile</value><description>Expects one of [textfile, sequencefile, rcfile, orc].Default file format for CREATE TABLE statement. Users can explicitly override it by CREATE TABLE ... STORED AS [FORMAT]</description>
</property>

hiev默认用的是TextFile,就是说不压缩

hive> set hive.default.fileformat;
hive.default.fileformat=TextFile

案例

保存为rcfile测试

create table emptest
(empno    int,ename    string,job      string,mgr      int,hiredate date,sal      double,comm     double,deptno   int
)row format delimitedfields terminated by ','stored as rcfile;

插入数据

insert into emptest
select * from emp;

之后可以进行查询,也可以去hdfs上查看一下,这个是没有后缀名的,看不出是rcfile.但是可以下载后用notepad打开,看一下

确认是rcfile格式,大小250B

保存为textFile测试

create table emptest1
(empno    int,ename    string,job      string,mgr      int,hiredate date,sal      double,comm     double,deptno   int
)row format delimitedfields terminated by ','stored as textfile;
insert into emptest1 select * from emp;

总结

  • hive不止可以保存成textfile格式,可以根据需求选择

Hive 存储格式入门相关推荐

  1. Hive从入门到放弃——HiveQL表级别DDL设计的艺术性(五)

    HiveQL数据库中的表DDL操作   博客Hive从入门到放弃--HiveQL数据库级别DDL设计的艺术性(四)聊完了数据库的基本操作,我们再来聊聊Hive内表的操作. 创建表   官方推荐建表的结 ...

  2. Hive 快速入门(全面)

    转载: https://www.codercto.com/a/5110.html 前言 我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的 ...

  3. hadoop hive hbase 入门学习 (二)

    hadoop 自学系列                hadoop hive hbase 入门学习 (一) hadoop安装.hdfs学习及mapreduce学习 hadoop 软件下载 (hadoo ...

  4. 试图加载格式不正确的程序_好程序员大数据学习路线之hive存储格式

    好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fil ...

  5. 深圳大数据培训:好程序员大数据学习路线之hive 存储格式

    深圳大数据培训:好程序员大数据学习路线之hive 存储格式 好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . ...

  6. Hive从入门到放弃——Hive表DML的艺术性(八)

    背 景   HiveQL语法和MySQL的语法很像,当然Hive本身作为大数据的数据仓库,本身对数据的修改和删除并不铭感,虽然Hive支持通过ORC为存储文件实现数据的删除和修改,但是这个功能相对比较 ...

  7. Hive存储格式之ORC File详解,什么是ORC File

    文章目录 概述 文件存储结构 Stripe Index Data Row Data Stripe Footer 两个补充名词 Row Group Stream File Footer 条纹信息 列统计 ...

  8. Apache Hive 快速入门 (CentOS 7.3 + Hadoop-2.8 + Hive-2.1.1)

    2019独角兽企业重金招聘Python工程师标准>>> 本文节选自<Netkiller Database 手札> 第 63 章 Apache Hive 目录 63.1. ...

  9. 数据仓库—stg层_数据仓库之Hive快速入门 - 离线实时数仓架构

    数据仓库VS数据库 数据仓库的定义: 数据仓库是将多个数据源的数据经过ETL(Extract(抽取).Transform(转换).Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析 ...

最新文章

  1. 解决xcode升级之后安装的插件失效
  2. python 面向对象(三大特性)
  3. 一个漫长的程序人生路程,如何突破5000元大关?几年前的2-3线城市的参考,现在未必...
  4. 怎么在vs中查看一个数组的所有元素
  5. python 输入文件名查找_python 查找文件名包含指定字符串的方法
  6. 判断条件UVa 10192 - Vacation(LCS水题)
  7. 面试常备题(三)----顺时针打印矩阵
  8. OpenStack 已死?
  9. windows 服务的安装与卸载之bat脚本命令
  10. KX022-1020 3轴 传感器 LGA RT8577AGQW LED驱动器
  11. win7没有语音识别怎么办|win7系统语音识别设置方法
  12. 前端开发者思考:假如5年后你是开发总监
  13. 红​字​和​蓝​字​冲​销(红字冲正、蓝字冲正)
  14. Spring框架 编程式事务 事务的传播行为(一)
  15. 项目启动后sqlSessionFactory获取不到创建数据库连接失败
  16. 12月18日科技资讯|支付宝、微信回应3D面具破解人脸识别;ofo 否认「发币」;Kafka 2.4.0 发布
  17. 机械转行前端,半年零基础自学的心路历程
  18. python视频解析UI界面
  19. 计算机售电卡端口错误怎么弄,ZTSD7000售电系统使用简易说明.doc
  20. webM文件解析工具

热门文章

  1. win7屏保时间设置_015时间轮盘电脑版
  2. windows系统bat批处理 网络设置大全 设置静态、动态IP地址
  3. 淘宝联盟 推广链接 API取链 转链报错 传入参数错误,请检查adzone_id是否属于appkey拥有者
  4. 对数组操作[:,:4]
  5. linux pkill窗口,在Linux系统中pkill命令的基础,附pkill命令的使用示例
  6. 单片机 架构 程序 经验总结_收藏!牛人总结的单片机应用程序架构
  7. php laravel 理解,程序员-说一下PHP框架Laravel,如何理解她的思想
  8. android dialog动画_Android超级酷炫实用的UI框架
  9. 一道经典面试题 你是是否理解 if()没有大括号与有大括号区别吗?
  10. 冒泡排序java代码_面试官问我插入排序和冒泡排序哪个更牛逼?