在hive中创建表是有如下一个语句

[ROW FORMAT row_format]

row_format 的类型有如下:

file_format:

: SEQUENCEFILE

| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)

| RCFILE -- (Note: Available in Hive 0.6.0 and later)

| ORC -- (Note: Available in Hive 0.11.0 and later)

| PARQUET -- (Note: Available in Hive 0.13.0 and later)

| AVRO -- (Note: Available in Hive 0.14.0 and later)

| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

默认是文本格式例如:

按照数据存储方式分类

按照行存储

SEQUENCEFILE

TEXTFILE

按照列存储

RCFILE

ORC

PARQUET

说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。

文件格式的压缩比较

实际业务我们是按照列来分析数据及使用数据的。

1、创建文本表

2、加载数据

image.png

3、查看创建OCR文件的格式

4、创建ocr文件

5、把文件表中的数据插入到OCR类型的表中

6、创建parquet类型的表并插入数据

7、查看文件大小

原始文本文件的大小

orc文件大小

partquet文件大小

执行sql语句测试执行速度

hive 表存储大小_Hive中文件存储格式及大小比较测试相关推荐

  1. Hive中文件存储格式及大小比较测试

    在hive中创建表是有如下一个语句 [ROW FORMAT row_format] row_format 的类型有如下: file_format: : SEQUENCEFILE | TEXTFILE ...

  2. hive mysql hdfs关系_Hive中的数据库、表、数据与HDFS的对应关系

    1.hive数据库 我们在hive终端,查看数据库信息,可以看出hive有一个默认的数据库default,而且我们还知道hive数据库对应的是hdfs上面的一个目录,那么默认的数据库default到底 ...

  3. hive表 合并字段_hive 两字段合并成 一个字段 例如:字段a和字段b合并成a-b,请问如何实现、...

    展开全部 使用函数concat select concat(a,'-',b) from就可以实现了. hive是基于Hadoop的一个数据3231313335323631343130323136353 ...

  4. 查询hive表_大数据中Hive与HBase的区别与联系

    二者区别 Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能. Hive本身不存储和计算数据,它完全依赖于HDFS和MapRe ...

  5. hive使用适用场景_Hive 中 Map Join 的适用场景:非等值连接

    最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题. 应用共同点如下: 1:有一个极小的表<1000行 2:需要做不等值join操作(a.x < b.y 或者 a.x like ...

  6. php字体大小_PHP中改变网页文字大小代码

    今天给大家介绍一点基础一点的东西,PHP中改变网页文字大小的实现,其实实现起来很简单,熟悉一点PHP和CSS就能很快的实现我们想要的效果. 文本大小调节器是最有效的可访问特性中的一个,任何网站都可能需 ...

  7. android auto 字体大小,Android中给TextView字体大小用dp还是sp?dp和sp有什么区别?

    dp,sp都会根据屏幕ppi显示大小不同. ppi的运算方式是: PPI = (开根号(长度像素数² + 宽度像素数²)) / 屏幕对角线英寸数 dp:Density-independent pixe ...

  8. python字符串比较大小 python3_Python中进行字符串比较大小的方法

    Python中进行字符串比较大小的方法 发布时间:2020-12-14 09:28:15 来源:亿速云 阅读:84 作者:小新 这篇文章给大家分享的是有关Python中进行字符串比较大小的方法的内容. ...

  9. mysql hive 内置函数_Hive中与时间相关的内置函数

    (1)获取当前的时间戳(以秒位单位):unix_timestamp(),返回值类型位BIGINT.例如: select unix_timestamp() from dim_user limit 1; ...

最新文章

  1. 计算机图形学入门总结!
  2. yii2多mysql配置文件_yii2使用多个数据库的案例
  3. dubbo与springboot的集成
  4. rac ogg to mysql_GoldenGate从oracle迁移数据到mysql
  5. mysql 重置密码模式_mysql--重置密码
  6. php猴子找大王算法,教程方法;php实现猴子选大王问题算法实例电脑技巧-琪琪词资源网...
  7. C语言简单的练习题目——牛生牛
  8. cocos2dx 回调函数
  9. 学习vue3系列reactive
  10. 单片机:DS1302时钟
  11. 项目开发:网上书店(详细的开发流程记录)----注册登录功能,通过邮件验证
  12. C语言数据结构、十字链表的分析及实现
  13. Multisim使用入门教程
  14. unity编写一个简单的小游戏
  15. 应用计算机测定线性电阻电路图和实物图,PC817中文数据摘要_PC817引脚图和功能_工作原理_特性参数及典型应用电路...
  16. 论文阅读《Learning for Disparity Estimation through Feature Constancy》
  17. Matlab求解微分方程组
  18. Mac Vmware
  19. nslookup 包含在那个包中_nslookup详解(name server lookup)( 域名查询)
  20. 国民游戏机小霸王从辉煌到没落仅用了30年

热门文章

  1. connection could not be established with host smtp.exmail.qq.com
  2. Debian 8安装Lamp 的坑
  3. lua 获取时分秒_PMON学用命令
  4. 小区物业费信息管理系统设计c++_律师,我没有签物业合同,可以不交物业费吗?...
  5. 架构评审,技术总监怒了,丢给我 400 个架构案例,先研究透!
  6. 这 6 个 Spring Boot 项目够经典
  7. Java 中这些常用关键字,总有那么些被你遗忘的
  8. 这是我的2018年终总结,你的呢?
  9. Git和Github简单教程
  10. struts实战--文件下载