1、探索Hive元数据
涉及表说明:

  • column_v2:表示该分区、表存储的字段信息,包含字段名称和类型和字段偏移。
  • sds:保存数据存储的信息,包含分区、表存储的HDFS路径地址等。
  • tbls:记录Hive数据库创建的所有表,有tbl_name、tbl_id等字段

如果表结构有变动,那么cd_id会改变。如果想查看变动前的表cd_id,可通过下面语句查询到结果数量与表分区数量相等:

select * from sds where location like '%table_name%';

再通过下面语句获取表分区的结构:

select * from columns_v2 where cd_id=xxx;

表有一个sd_id,表每个分区的sd_id各不相同,且和表的sd_id不一样。
tbls存储的是当前表结构sd_id,其sds对应的cd_id是最新表结构。

通过元数据查询表字段及分区信息:

select
t1.tbl_id
,t2.`NAME` as db_name
,t1.tbl_name
,t3.param_value as table_comment
,t5.comment as column_comment
,t4.cd_id
,t5.column_name
,t5.type_name
,t5.integer_idx
,0 as partition_key_flag
from tbls t1
left join dbs t2
on t1.db_id = t2.db_id
left join table_params t3
on t1.tbl_id = t3.tbl_id
and t3.param_key = 'comment'
left join sds t4
on t1.sd_id = t4.sd_id
join columns_v2 t5
on t4.cd_id = t5.cd_id
union all
select
t1.tbl_id
,t2.`NAME` as db_name
,t1.tbl_name
,t3.param_value as table_comment
,t5.pkey_comment as column_comment
,t4.cd_id
,t5.pkey_name as column_name
,t5.pkey_type as type_name
,t5.integer_idx
,1 as partition_key_flag
from tbls t1
left join dbs t2
on t1.db_id = t2.db_id
left join table_params t3
on t1.tbl_id = t3.tbl_id
and t3.param_key = 'comment'
left join sds t4
on t1.sd_id = t4.sd_id
join partition_keys t5
on t1.tbl_id = t5.tbl_id;

2、hql、mysql: greatest可实现最小值为x、least可实现最大值为x。greatest / least获取取最大/小值。

select 1 as seq,greatest(0,1,-1) as a --取函数内字段值的最大值,这里返回1
union all
select 2 as seq,least(0,1,-1) as a --取函数内字段值的最小值,这里返回-1
union all
select 3 as seq,greatest(0,null,-1) as a --由于字段存在null,函数值返回null
union all
select 4 as seq,least(0,null,-1) as a --由于字段存在null,函数值返回null

3、获取日期,hql:to_date(timestr);mysql:date(timestr)

探索Hive元数据_sql杂记相关推荐

  1. hive安装测试及Hive 元数据的三种存储方式

    一  hive安装测试 1.下载解压 tar -xf hive-x.y.z.tar.gz(本次安装为hive-0.8.1.tar.gz) 将解压后的hive-0.8.1文件放在系统的/home/had ...

  2. hive元数据为什么使用Mysql?不使用默认的Derby

    hive元数据为什么使用Mysql?不使用默认的Derby? 在安装完成Hive之后默认是以Derby数据库作为元数据库,存储Hive有哪些数据库,以及每个数据库中有哪些表,但是在实际生产过程中,并不 ...

  3. SparkSQL Catalog的作用和访问Hive元数据信息

    SparkSQL Catalog的作用: SparkSQL直接访问hive元数据信息,不再需要去mysql里的表里去查找 Spark 2.0中添加了标准的API(称为catalog)来访问Spark ...

  4. Atlas2.1.0实战:安装、配置、导入hive元数据、编译排坑

    背景 随着公司数据仓库的建设,数仓hive表愈来愈多,如何管理这些表? 经调研,Atlas成为了我们的选择对象,本文是Atlas实战记录,感谢尚硅谷的学习视频 1.Atlas概述 1.1 Apache ...

  5. Hive元数据信息获取

    如何获取Hive库表字段分区信息 1 获取Hive的所有数据库信息 如果注释字段中文乱码,则需要修改字符集(正常情况都需要修改). SELECT`NAME` NAME,ANY_VALUE ( `DES ...

  6. Apache Atlas管理Hive元数据

    部署好Atlas服务后,重点是对Atlas的使用,这里对Atlas管理Hive元数据做简单总结. Hive元数据导入 全量导入 bash /usr/hdp/2.6.4.0-91/atlas/hook- ...

  7. clodera scm 数据库表信息 和 hive元数据整理

    一. cloudera 会将页面的数据存储到 SCM 中 其表结构梳理(对应生产BAOFOO_SCM) AUDITS 登录信息.服务,角色重启.配置更改 PROCESSES 进程信息.这里面有很多信息 ...

  8. Impala自动同步Hive元数据

    在Cloudera官方文档 Impala Metadata Management,找到了CDH平台中Impala自动同步Hive元数据的配置方法. 文档中提示这是CDH6.3/Impala3.3的一个 ...

  9. 新的比较详细的hive安装教程,包含:hadoop的安装配置,hive安装详细教程,大数据下hive详细配置和简单使用和hive元数据迁移相关安装配置操作

    简介:这是大数据里安装hive比较详细的教程,包括安装hive时hadoop的相关配置,hive安装,hive 之后的mysql安装,hive的元素配置到mysql相关配置,hive常见属性的相关配置 ...

最新文章

  1. WSRP调用中的一些问题
  2. html 内部浮动外部不,CSS:外部层高度自适应内部浮动层高度的方法
  3. android api在线文档_通过 API 远程管理 Jenkins
  4. Linux下修改Swap分区大小
  5. 获取minist数据并转换成lmdb
  6. html5-----2
  7. 在Ubuntu 16.04环境下安装Docker-CE(附视频教程)
  8. windows 和linux查看硬件信息,Linux下如何查看硬件信息?
  9. intern()方法的使用
  10. fastapi 请求文件 / 表单 / 处理错误 / 路径操作配置 / jsonable_encoder
  11. 张一鸣这一条微博,阿里P8的我,竟然想了一夜
  12. 在TypeScript中使用React钩子
  13. docker安装nacos并配置mysql数据库教程
  14. 抖音快手短视频去水印小程序解析接口API开发文档
  15. 衣米魔兽世界怀旧服:相关网友和测试玩家的提问,王乾亨以及衣米魔兽官方的解释与回答内容精选
  16. 【历史上的今天】9 月 21 日:世界上第一部商用移动电话;苹果发布 iPhone 5 ;Mini-SATA 研制成功
  17. 深度学习基础之-2.3简单的神经网络(单个输入/多个输入)做线性回归+特征值归一化
  18. Excel制作水滴图和对称条形图
  19. 图计算思维与实践 (一)概览
  20. 油烟净化器如何判断质量好坏?

热门文章

  1. 腾讯云短信接口报错1014
  2. 软考-软件设计师 - 第2章 程序设计语言基础知识【附补充常考知识点】
  3. Windows加密文件夹设置
  4. qt记住上次打开的文件路径
  5. nacos在windows系统下单机模式启动四部曲(2.1.2,重置密码)
  6. HTTP协议的头信息详解 1
  7. 当前IT行业里的热门技术及其案例
  8. 桌面运维中持续服务改进需要怎么进行?
  9. 基于Power BI的终端产品销售ABC分析
  10. uipath sequence传递参数_界面换热和压力传递的相互影响机制 | 压铸过程高级分析...