在Cloudera官方文档 Impala Metadata Management,找到了CDH平台中Impala自动同步Hive元数据的配置方法。

文档中提示这是CDH6.3/Impala3.3的一个预览特性,不是普遍有效的。

经过在CDH6.3.2集群中的实际测试,发现对于Hive的一般操作,Impala都可以有效自动同步。文档中提到对于Spark INSERT Hive的操作,Impala也可以自动同步,不过我没有对此进行测试验证。

这种机制称为 基于事件的自动元数据同步,是通过监控Hive元数据变动通知实现Impala周期性的自动同步,所以如果一个操作不会在HMS(Hive Metastore Server)中生成事件,那么这个操作就不会被同步到,例如Spark直接写数据到HDFS这种操作:

Seq((1, 2)).toDF("i", "j").write.save("/user/hive/warehouse/spark_etl.db/customers/date=01012019")

下面简要记录一下配置方法,详情请查看 Impala Metadata Management。

配置Hive

1、导航到 群集 > Hive > 配置 > 筛选器 > 范围 > Hive Metastore Server
2、选择 启用数据库中的存储通知
3、编辑 hive-site.xml 的 Hive Metastore Server 高级配置代码段(安全阀),添加如下配置:

名称
hive.metastore.notifications.add.thrift.objects true
hive.metastore.alter.notifications.basic false

4、保存改变
5、如果你想要在Spark应用插入数据到已存在的表和分区时生成 INSERT 事件,则进行如下配置:
编辑 hive-site.xml 的 Hive 客户端高级配置代码段(安全阀),添加如下配置:

名称
hive.metastore.dml.events true

编辑 hive-site.xml 的 Hive 服务高级配置代码段(安全阀),添加如下配置:

名称
hive.metastore.dml.events true

6、保存改变,重启服务。

配置Impala

1、导航到 群集 > Impala > 配置 > 筛选器 > 范围 > Imapla Catalog Server
2、编辑 Catalog Server 命令行参数高级配置代码段(安全阀),添加配置:--hms_event_polling_interval_s=4
3、保存改变,重启服务。
--hms_event_polling_interval_s是设置元数据同步频率的,默认为0,表示不同步。

关闭自动同步

当启用了基于事件的自动元数据同步后,默认对所有数据库和表有效。如果你希望控制同步的启用和关闭,可以使用impala.disableHmsSync属性。

  • 'impala.disableHmsSync'='true' 表示关闭。
  • 'impala.disableHmsSync'='false' 表示启用,这是默认配置。

关闭新数据库的自动同步

Impala不支持设置数据库属性,所以这个必须使用Hive操作。示例:

CREATE DATABASE <name> WITH DBPROPERTIES ('impala.disableHmsSync'='true');

启用或关闭表的自动同步

新建表,示例:

CREATE TABLE <name> ... TBLPROPERTIES ('impala.disableHmsSync'='true' | 'false');

更改表,示例:

ALTER TABLE <name> SET TBLPROPERTIES ('impala.disableHmsSync'='true' | 'false');

Impala自动同步Hive元数据相关推荐

  1. impala元数据放到mysql_impala系列: 同步Hive元数据和收集统计信息

    ---==================== -- Impala 获取hive 的 metadata ---==================== Impala 通常和Hive共用同一个metad ...

  2. hive 元数据 自定义_如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件-阿里云开发者社区...

    如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译: 1.使用Intellij工具通过 ...

  3. Atlas2.1.0实战:安装、配置、导入hive元数据、编译排坑

    背景 随着公司数据仓库的建设,数仓hive表愈来愈多,如何管理这些表? 经调研,Atlas成为了我们的选择对象,本文是Atlas实战记录,感谢尚硅谷的学习视频 1.Atlas概述 1.1 Apache ...

  4. Hive元数据信息获取

    如何获取Hive库表字段分区信息 1 获取Hive的所有数据库信息 如果注释字段中文乱码,则需要修改字符集(正常情况都需要修改). SELECT`NAME` NAME,ANY_VALUE ( `DES ...

  5. Apache Atlas管理Hive元数据

    部署好Atlas服务后,重点是对Atlas的使用,这里对Atlas管理Hive元数据做简单总结. Hive元数据导入 全量导入 bash /usr/hdp/2.6.4.0-91/atlas/hook- ...

  6. clodera scm 数据库表信息 和 hive元数据整理

    一. cloudera 会将页面的数据存储到 SCM 中 其表结构梳理(对应生产BAOFOO_SCM) AUDITS 登录信息.服务,角色重启.配置更改 PROCESSES 进程信息.这里面有很多信息 ...

  7. 新的比较详细的hive安装教程,包含:hadoop的安装配置,hive安装详细教程,大数据下hive详细配置和简单使用和hive元数据迁移相关安装配置操作

    简介:这是大数据里安装hive比较详细的教程,包括安装hive时hadoop的相关配置,hive安装,hive 之后的mysql安装,hive的元素配置到mysql相关配置,hive常见属性的相关配置 ...

  8. 利用svn自动同步更新到网站服务器 -- 网摘

    首先在服务器上安装VisualSVN Server ,根据提示选好安装的路径,一路确定.安装好后运行VisualSVN Server ,在Repositories上点击右键,选择create New ...

  9. sharepoint文件夹本地同步_干货 | 如何将主机文件自动同步至对象存储

    注:最好利用京东云对象存储来存储一些静态文件,不建议用其直接存储数据库之类的数据文件,而且也会受到速度的影响,当然我们可以利用其存储备份文件. 今天我们来利用s3fs工具将京东云对象存储挂载到京东云云 ...

最新文章

  1. 建立循环单链表(尾插法)
  2. 用曼哈顿距离来巧解---输出菱形的问题
  3. net_conv1_conv2_conv3_conv4_py
  4. anaconda学习python_python深度学习笔记1-Anaconda软件安装
  5. 嵌入式linux 配置usb otg,嵌入式linux系统环境下USB设备的驱动实现
  6. Android保存用户名和密码
  7. 大物知识点复习框架——振动
  8. 利用Apply的参数数组化来提高代码的优雅性,及高效性
  9. [连接机顶盒]-使用 adb 命令行无线连接 EC6108V9 华为悦盒
  10. 测量图上点位平面位置\高程中误差怎么计算?
  11. 安卓手机阅读器_得到电纸书阅读器到底如何,值不值得买?使用一个月后,我告诉你答案!...
  12. 【MDT】iPhone XS 系列屏幕素质报告
  13. Flutter 性能优化
  14. 数据竞赛:工业互联网算法大赛能源赛道风机轴承剩余寿命预测
  15. Cognos资料整理
  16. [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  17. 唐山盐碱滩成渤海明珠 国稻种芯·中国水稻节:河北曹妃甸大米
  18. ubuntu16.04下安装dnw和fastboot工具,解决开发板只有uboot系统,没有网络的情况下,通过dnw和fastboot传送文件到开发板
  19. 森林防火(资源监管)“空天地人”四位一体监测系统方案
  20. 用UDP实现简易的聊天室

热门文章

  1. centos mount ntfs文件系统
  2. 基于Pytorch的语音情感识别系统
  3. 小白教程——Windows下用PHP写一个简单的登录注册页面(二)
  4. 以android模拟器方式下载51CTO视频
  5. 什么是b3dm?b3dm详解
  6. 锁定计算机会使计算机休眠吗,计算机休眠,保持会话。
  7. 神舟IV号开发板-107.OTG功能-对U盘的访问(例程bug1)
  8. pytest-html中文乱码解决
  9. 窄带波束形成——频域的波束形成
  10. 前端:localStorage存入json数据,再次取出时,数据为undefined