Impala自动同步Hive元数据
在Cloudera官方文档 Impala Metadata Management,找到了CDH平台中Impala自动同步Hive元数据的配置方法。
文档中提示这是CDH6.3/Impala3.3的一个预览特性,不是普遍有效的。
经过在CDH6.3.2集群中的实际测试,发现对于Hive的一般操作,Impala都可以有效自动同步。文档中提到对于Spark INSERT Hive的操作,Impala也可以自动同步,不过我没有对此进行测试验证。
这种机制称为 基于事件的自动元数据同步,是通过监控Hive元数据变动通知实现Impala周期性的自动同步,所以如果一个操作不会在HMS(Hive Metastore Server)中生成事件,那么这个操作就不会被同步到,例如Spark直接写数据到HDFS这种操作:
Seq((1, 2)).toDF("i", "j").write.save("/user/hive/warehouse/spark_etl.db/customers/date=01012019")
下面简要记录一下配置方法,详情请查看 Impala Metadata Management。
配置Hive
1、导航到 群集 > Hive > 配置 > 筛选器 > 范围 > Hive Metastore Server 。
2、选择 启用数据库中的存储通知 。
3、编辑 hive-site.xml 的 Hive Metastore Server 高级配置代码段(安全阀),添加如下配置:
名称 | 值 |
---|---|
hive.metastore.notifications.add.thrift.objects | true |
hive.metastore.alter.notifications.basic | false |
4、保存改变
5、如果你想要在Spark应用插入数据到已存在的表和分区时生成 INSERT 事件,则进行如下配置:
编辑 hive-site.xml 的 Hive 客户端高级配置代码段(安全阀),添加如下配置:
名称 | 值 |
---|---|
hive.metastore.dml.events | true |
编辑 hive-site.xml 的 Hive 服务高级配置代码段(安全阀),添加如下配置:
名称 | 值 |
---|---|
hive.metastore.dml.events | true |
6、保存改变,重启服务。
配置Impala
1、导航到 群集 > Impala > 配置 > 筛选器 > 范围 > Imapla Catalog Server 。
2、编辑 Catalog Server 命令行参数高级配置代码段(安全阀),添加配置:--hms_event_polling_interval_s=4
。
3、保存改变,重启服务。
--hms_event_polling_interval_s
是设置元数据同步频率的,默认为0,表示不同步。
关闭自动同步
当启用了基于事件的自动元数据同步后,默认对所有数据库和表有效。如果你希望控制同步的启用和关闭,可以使用impala.disableHmsSync
属性。
'impala.disableHmsSync'='true'
表示关闭。'impala.disableHmsSync'='false'
表示启用,这是默认配置。
关闭新数据库的自动同步
Impala不支持设置数据库属性,所以这个必须使用Hive操作。示例:
CREATE DATABASE <name> WITH DBPROPERTIES ('impala.disableHmsSync'='true');
启用或关闭表的自动同步
新建表,示例:
CREATE TABLE <name> ... TBLPROPERTIES ('impala.disableHmsSync'='true' | 'false');
更改表,示例:
ALTER TABLE <name> SET TBLPROPERTIES ('impala.disableHmsSync'='true' | 'false');
Impala自动同步Hive元数据相关推荐
- impala元数据放到mysql_impala系列: 同步Hive元数据和收集统计信息
---==================== -- Impala 获取hive 的 metadata ---==================== Impala 通常和Hive共用同一个metad ...
- hive 元数据 自定义_如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件-阿里云开发者社区...
如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译: 1.使用Intellij工具通过 ...
- Atlas2.1.0实战:安装、配置、导入hive元数据、编译排坑
背景 随着公司数据仓库的建设,数仓hive表愈来愈多,如何管理这些表? 经调研,Atlas成为了我们的选择对象,本文是Atlas实战记录,感谢尚硅谷的学习视频 1.Atlas概述 1.1 Apache ...
- Hive元数据信息获取
如何获取Hive库表字段分区信息 1 获取Hive的所有数据库信息 如果注释字段中文乱码,则需要修改字符集(正常情况都需要修改). SELECT`NAME` NAME,ANY_VALUE ( `DES ...
- Apache Atlas管理Hive元数据
部署好Atlas服务后,重点是对Atlas的使用,这里对Atlas管理Hive元数据做简单总结. Hive元数据导入 全量导入 bash /usr/hdp/2.6.4.0-91/atlas/hook- ...
- clodera scm 数据库表信息 和 hive元数据整理
一. cloudera 会将页面的数据存储到 SCM 中 其表结构梳理(对应生产BAOFOO_SCM) AUDITS 登录信息.服务,角色重启.配置更改 PROCESSES 进程信息.这里面有很多信息 ...
- 新的比较详细的hive安装教程,包含:hadoop的安装配置,hive安装详细教程,大数据下hive详细配置和简单使用和hive元数据迁移相关安装配置操作
简介:这是大数据里安装hive比较详细的教程,包括安装hive时hadoop的相关配置,hive安装,hive 之后的mysql安装,hive的元素配置到mysql相关配置,hive常见属性的相关配置 ...
- 利用svn自动同步更新到网站服务器 -- 网摘
首先在服务器上安装VisualSVN Server ,根据提示选好安装的路径,一路确定.安装好后运行VisualSVN Server ,在Repositories上点击右键,选择create New ...
- sharepoint文件夹本地同步_干货 | 如何将主机文件自动同步至对象存储
注:最好利用京东云对象存储来存储一些静态文件,不建议用其直接存储数据库之类的数据文件,而且也会受到速度的影响,当然我们可以利用其存储备份文件. 今天我们来利用s3fs工具将京东云对象存储挂载到京东云云 ...
最新文章
- 建立循环单链表(尾插法)
- 用曼哈顿距离来巧解---输出菱形的问题
- net_conv1_conv2_conv3_conv4_py
- anaconda学习python_python深度学习笔记1-Anaconda软件安装
- 嵌入式linux 配置usb otg,嵌入式linux系统环境下USB设备的驱动实现
- Android保存用户名和密码
- 大物知识点复习框架——振动
- 利用Apply的参数数组化来提高代码的优雅性,及高效性
- [连接机顶盒]-使用 adb 命令行无线连接 EC6108V9 华为悦盒
- 测量图上点位平面位置\高程中误差怎么计算?
- 安卓手机阅读器_得到电纸书阅读器到底如何,值不值得买?使用一个月后,我告诉你答案!...
- 【MDT】iPhone XS 系列屏幕素质报告
- Flutter 性能优化
- 数据竞赛:工业互联网算法大赛能源赛道风机轴承剩余寿命预测
- Cognos资料整理
- [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
- 唐山盐碱滩成渤海明珠 国稻种芯·中国水稻节:河北曹妃甸大米
- ubuntu16.04下安装dnw和fastboot工具,解决开发板只有uboot系统,没有网络的情况下,通过dnw和fastboot传送文件到开发板
- 森林防火(资源监管)“空天地人”四位一体监测系统方案
- 用UDP实现简易的聊天室