探索Hive元数据

1、探索Hive元数据
涉及表说明：

column_v2：表示该分区、表存储的字段信息，包含字段名称和类型和字段偏移。
sds：保存数据存储的信息，包含分区、表存储的HDFS路径地址等。
tbls：记录Hive数据库创建的所有表，有tbl_name、tbl_id等字段

如果表结构有变动，那么cd_id会改变。如果想查看变动前的表cd_id，可通过下面语句查询到结果数量与表分区数量相等：

select * from sds where location like '%table_name%';

再通过下面语句获取表分区的结构：

select * from columns_v2 where cd_id=xxx;

表有一个sd_id,表每个分区的sd_id各不相同，且和表的sd_id不一样。
tbls存储的是当前表结构sd_id,其sds对应的cd_id是最新表结构。

通过元数据查询表字段及分区信息：

select
t1.tbl_id
,t2.`NAME` as db_name
,t1.tbl_name
,t3.param_value as table_comment
,t5.comment as column_comment
,t4.cd_id
,t5.column_name
,t5.type_name
,t5.integer_idx
,0 as partition_key_flag
from tbls t1
left join dbs t2
on t1.db_id = t2.db_id
left join table_params t3
on t1.tbl_id = t3.tbl_id
and t3.param_key = 'comment'
left join sds t4
on t1.sd_id = t4.sd_id
join columns_v2 t5
on t4.cd_id = t5.cd_id
union all
select
t1.tbl_id
,t2.`NAME` as db_name
,t1.tbl_name
,t3.param_value as table_comment
,t5.pkey_comment as column_comment
,t4.cd_id
,t5.pkey_name as column_name
,t5.pkey_type as type_name
,t5.integer_idx
,1 as partition_key_flag
from tbls t1
left join dbs t2
on t1.db_id = t2.db_id
left join table_params t3
on t1.tbl_id = t3.tbl_id
and t3.param_key = 'comment'
left join sds t4
on t1.sd_id = t4.sd_id
join partition_keys t5
on t1.tbl_id = t5.tbl_id;

2、hql、mysql: greatest可实现最小值为x、least可实现最大值为x。greatest / least获取取最大/小值。

select 1 as seq,greatest(0,1,-1) as a --取函数内字段值的最大值，这里返回1
union all
select 2 as seq,least(0,1,-1) as a --取函数内字段值的最小值，这里返回-1
union all
select 3 as seq,greatest(0,null,-1) as a --由于字段存在null，函数值返回null
union all
select 4 as seq,least(0,null,-1) as a --由于字段存在null，函数值返回null

3、获取日期，hql：to_date(timestr)；mysql：date(timestr)

探索Hive元数据_sql杂记相关推荐

hive安装测试及Hive 元数据的三种存储方式
一 hive安装测试 1.下载解压 tar -xf hive-x.y.z.tar.gz(本次安装为hive-0.8.1.tar.gz) 将解压后的hive-0.8.1文件放在系统的/home/had ...
hive元数据为什么使用Mysql？不使用默认的Derby
hive元数据为什么使用Mysql?不使用默认的Derby? 在安装完成Hive之后默认是以Derby数据库作为元数据库,存储Hive有哪些数据库,以及每个数据库中有哪些表,但是在实际生产过程中,并不 ...
SparkSQL Catalog的作用和访问Hive元数据信息
SparkSQL Catalog的作用: SparkSQL直接访问hive元数据信息,不再需要去mysql里的表里去查找 Spark 2.0中添加了标准的API(称为catalog)来访问Spark ...
Atlas2.1.0实战：安装、配置、导入hive元数据、编译排坑
背景随着公司数据仓库的建设,数仓hive表愈来愈多,如何管理这些表? 经调研,Atlas成为了我们的选择对象,本文是Atlas实战记录,感谢尚硅谷的学习视频 1.Atlas概述 1.1 Apache ...
Hive元数据信息获取
如何获取Hive库表字段分区信息 1 获取Hive的所有数据库信息如果注释字段中文乱码,则需要修改字符集(正常情况都需要修改). SELECT`NAME` NAME,ANY_VALUE ( `DES ...
Apache Atlas管理Hive元数据
部署好Atlas服务后,重点是对Atlas的使用,这里对Atlas管理Hive元数据做简单总结. Hive元数据导入全量导入 bash /usr/hdp/2.6.4.0-91/atlas/hook- ...
clodera scm 数据库表信息和 hive元数据整理
一. cloudera 会将页面的数据存储到 SCM 中其表结构梳理(对应生产BAOFOO_SCM) AUDITS 登录信息.服务,角色重启.配置更改 PROCESSES 进程信息.这里面有很多信息 ...
Impala自动同步Hive元数据
在Cloudera官方文档 Impala Metadata Management,找到了CDH平台中Impala自动同步Hive元数据的配置方法. 文档中提示这是CDH6.3/Impala3.3的一个 ...
新的比较详细的hive安装教程，包含：hadoop的安装配置，hive安装详细教程，大数据下hive详细配置和简单使用和hive元数据迁移相关安装配置操作
简介:这是大数据里安装hive比较详细的教程,包括安装hive时hadoop的相关配置,hive安装,hive 之后的mysql安装,hive的元素配置到mysql相关配置,hive常见属性的相关配置 ...

探索Hive元数据_sql杂记

探索Hive元数据_sql杂记相关推荐

最新文章

热门文章