在Cloudera官方文档 Impala Metadata Management，找到了CDH平台中Impala自动同步Hive元数据的配置方法。

文档中提示这是CDH6.3/Impala3.3的一个预览特性，不是普遍有效的。

经过在CDH6.3.2集群中的实际测试，发现对于Hive的一般操作，Impala都可以有效自动同步。文档中提到对于Spark INSERT Hive的操作，Impala也可以自动同步，不过我没有对此进行测试验证。

这种机制称为 基于事件的自动元数据同步，是通过监控Hive元数据变动通知实现Impala周期性的自动同步，所以如果一个操作不会在HMS（Hive Metastore Server）中生成事件，那么这个操作就不会被同步到，例如Spark直接写数据到HDFS这种操作：

Seq((1, 2)).toDF("i", "j").write.save("/user/hive/warehouse/spark_etl.db/customers/date=01012019")

下面简要记录一下配置方法，详情请查看 Impala Metadata Management。

配置Hive

1、导航到 群集 > Hive > 配置 > 筛选器 > 范围 > Hive Metastore Server 。
2、选择 启用数据库中的存储通知 。
3、编辑 hive-site.xml 的 Hive Metastore Server 高级配置代码段（安全阀），添加如下配置：

名称	值
hive.metastore.notifications.add.thrift.objects	true
hive.metastore.alter.notifications.basic	false

4、保存改变
5、如果你想要在Spark应用插入数据到已存在的表和分区时生成 INSERT 事件，则进行如下配置：
编辑 hive-site.xml 的 Hive 客户端高级配置代码段（安全阀），添加如下配置：

名称	值
hive.metastore.dml.events	true

编辑 hive-site.xml 的 Hive 服务高级配置代码段（安全阀），添加如下配置：

名称	值
hive.metastore.dml.events	true

6、保存改变，重启服务。

配置Impala

1、导航到 群集 > Impala > 配置 > 筛选器 > 范围 > Imapla Catalog Server 。
2、编辑 Catalog Server 命令行参数高级配置代码段（安全阀），添加配置：--hms_event_polling_interval_s=4 。
3、保存改变，重启服务。
--hms_event_polling_interval_s是设置元数据同步频率的，默认为0，表示不同步。

关闭自动同步

当启用了基于事件的自动元数据同步后，默认对所有数据库和表有效。如果你希望控制同步的启用和关闭，可以使用impala.disableHmsSync属性。

'impala.disableHmsSync'='true' 表示关闭。
'impala.disableHmsSync'='false' 表示启用，这是默认配置。

关闭新数据库的自动同步

Impala不支持设置数据库属性，所以这个必须使用Hive操作。示例：

CREATE DATABASE <name> WITH DBPROPERTIES ('impala.disableHmsSync'='true');

启用或关闭表的自动同步

新建表，示例：

CREATE TABLE <name> ... TBLPROPERTIES ('impala.disableHmsSync'='true' | 'false');

更改表，示例：

ALTER TABLE <name> SET TBLPROPERTIES ('impala.disableHmsSync'='true' | 'false');

Impala自动同步Hive元数据相关推荐

impala元数据放到mysql_impala系列: 同步Hive元数据和收集统计信息
---==================== -- Impala 获取hive 的 metadata ---==================== Impala 通常和Hive共用同一个metad ...
hive 元数据自定义_如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件-阿里云开发者社区...
如何在Hive中创建自定义函数UDF及使用如何在Impala中使用Hive的自定义函数 UDF函数开发使用Intellij工具开发Hive的UDF函数,进行编译: 1.使用Intellij工具通过 ...
Atlas2.1.0实战：安装、配置、导入hive元数据、编译排坑
背景随着公司数据仓库的建设,数仓hive表愈来愈多,如何管理这些表? 经调研,Atlas成为了我们的选择对象,本文是Atlas实战记录,感谢尚硅谷的学习视频 1.Atlas概述 1.1 Apache ...
Hive元数据信息获取
如何获取Hive库表字段分区信息 1 获取Hive的所有数据库信息如果注释字段中文乱码,则需要修改字符集(正常情况都需要修改). SELECT`NAME` NAME,ANY_VALUE ( `DES ...
Apache Atlas管理Hive元数据
部署好Atlas服务后,重点是对Atlas的使用,这里对Atlas管理Hive元数据做简单总结. Hive元数据导入全量导入 bash /usr/hdp/2.6.4.0-91/atlas/hook- ...
clodera scm 数据库表信息和 hive元数据整理
一. cloudera 会将页面的数据存储到 SCM 中其表结构梳理(对应生产BAOFOO_SCM) AUDITS 登录信息.服务,角色重启.配置更改 PROCESSES 进程信息.这里面有很多信息 ...
新的比较详细的hive安装教程，包含：hadoop的安装配置，hive安装详细教程，大数据下hive详细配置和简单使用和hive元数据迁移相关安装配置操作
简介:这是大数据里安装hive比较详细的教程,包括安装hive时hadoop的相关配置,hive安装,hive 之后的mysql安装,hive的元素配置到mysql相关配置,hive常见属性的相关配置 ...
利用svn自动同步更新到网站服务器 -- 网摘
首先在服务器上安装VisualSVN Server ,根据提示选好安装的路径,一路确定.安装好后运行VisualSVN Server ,在Repositories上点击右键,选择create New ...
sharepoint文件夹本地同步_干货 | 如何将主机文件自动同步至对象存储
注:最好利用京东云对象存储来存储一些静态文件,不建议用其直接存储数据库之类的数据文件,而且也会受到速度的影响,当然我们可以利用其存储备份文件. 今天我们来利用s3fs工具将京东云对象存储挂载到京东云云 ...

Impala自动同步Hive元数据