Hive 数据质量检测
可以检测Hive
的元数据,比如Hive
表元数据存在Mysql
中,可以在Mysql
中查询
mysql> desc TBLS;
+--------------------+--------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+--------------------+--------------+------+-----+---------+-------+
| TBL_ID | bigint(20) | NO | PRI | NULL | |
| CREATE_TIME | int(11) | NO | | NULL | |
| DB_ID | bigint(20) | YES | MUL | NULL | |
| LAST_ACCESS_TIME | int(11) | NO | | NULL | |
| OWNER | varchar(767) | YES | | NULL | |
| RETENTION | int(11) | NO | | NULL | |
| SD_ID | bigint(20) | YES | MUL | NULL | |
| TBL_NAME | varchar(128) | YES | MUL | NULL | |
| TBL_TYPE | varchar(128) | YES | | NULL | |
| VIEW_EXPANDED_TEXT | mediumtext | YES | | NULL | |
| VIEW_ORIGINAL_TEXT | mediumtext | YES | | NULL | |
+--------------------+--------------+------+-----+---------+-------+
mysql> desc TABLE_PARAMS;
+-------------+---------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------------+---------------+------+-----+---------+-------+
| TBL_ID | bigint(20) | NO | PRI | NULL | |
| PARAM_KEY | varchar(256) | NO | PRI | NULL | |
| PARAM_VALUE | varchar(4000) | YES | | NULL | |
+-------------+---------------+------+-----+---------+-------+
比如进行0行检测
,可以写成脚本,定时执行,这样就可以哪些表只有0行
0行检测可以理解成一些表不应该存在0行的情况,如果有,需要及时告警和排查原因,甚至是0行数据会影响下游任务,需要考虑阻断下游任务的继续执行,一方面减少下游任务异常的多余告警,二来节省下游任务执行的资源。
mysql> select a.TBL_ID, a.TBL_NAME, b.PARAM_KEY, b.PARAM_VALUE from TBLS as a join TABLE_PARAMS as b where a.TBL_ID = b.TBL_ID and TBL_NAME="score" and PARAM_KEY="numRows";
+--------+----------+-----------+-------------+
| TBL_ID | TBL_NAME | PARAM_KEY | PARAM_VALUE |
+--------+----------+-----------+-------------+
| 7 | score | numRows | 0 |
| 33 | score | numRows | 0 |
| 151 | score | numRows | 0 |
| 242 | score | numRows | 0 |
+--------+----------+-----------+-------------+
阈值检测
可以提供一些类 sql
的语法,同样是作为离线的定时任务来执行检查。当然阈值检查必须考虑检查范围的问题,抽样肯定要比全量更效率更高,但是全量肯定比抽样更稳妥,需要结合资源和业务来综合衡量。
hive> set checkMode = SAMPLING;
hive> select * from emp where empno>100;
OK
7369 SMITH CLERK 7902 1980-12-17 800.0 NULL 20
7499 ALLEN SALESMAN 7698 1981-02-20 1600.0 300.0 30
7521 WARD SALESMAN 7698 1981-02-22 1250.0 500.0 30
7566 JONES MANAGER 7839 1981-04-02 2975.0 NULL 10
总结
数据质量检测
可以写一些脚本定时执行!
参考
数据质量监测 - 知乎
Hive 数据质量检测相关推荐
- 数据管理-数据质量检测
目录 数据质量检测 完整性 一致性 准确性 及时性 数据质量检测 数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性.一致性.准确性.及时性.评估数据是否达到预期设定的质量要求,就可以 ...
- 大数据成败之“监”:美团数据质量监管平台这样搭建
http://www.sohu.com/a/227310642_411876 背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力. ...
- pb利用datawindow查询符合条件的数据并且过滤掉其他数据_数据质量监测
1 Overview 1.1 数据质量 在数据部门里,数据质量问题经常是被动发现,所以数据质量的问题是大多数公司数据部门都不得不面对的问题.数据质量校验的目标是监控数据管道中,生产者.处理阶段以及消费 ...
- DataMan-美团旅行数据质量监管平台实践
背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力.Michael Hammer(<Reengineering the Cor ...
- Apache拯救世界之数据质量监控工具 - Apache Griffin
点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 八股文交给我,你们专心刷题和面试 Hi,我是王知无,一个大数据领域的原创作者. 放心关注我,获取更 ...
- 【数据质量】数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis
开源数据质量管理工具预研--Griffin VS Deequ VS Great expectations VS Qualitis. 概述 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重 ...
- VCT空间数据交换格式数据的检测方法研究
摘要:国土资源信大量的是空间地理信息,由于现买中各GIS系统存储.管理GIS数据的格式各不相同,空间数据交换标准是实现GIS数据共享的必要途径,国土资源部制定了VCT矢量数据交换格式来实现各类国土资源 ...
- 一款优秀的数据质量探查工具应该具有哪些功能?
当前越来越多的企业认识到了数据的重要性,数据仓库.大数据平台的建设如雨后春笋.但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源.糟糕的数据质量常常意味着糟糕的业务决策,将直接导致 ...
- 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
编译:刘佳毅,花名佳易,阿里巴巴计算平台事业部EMR团队开发工程师,目前从事大数据安全相关方面工作. 摘要: 本文主要对Databricks如何使用Spark Streaming和Delta Lake ...
最新文章
- 基础环境搭建--原始mavenWeb项目
- 在选择数据库的路上,我们遇到过哪些坑?(1)
- jdk动态代理与cglib动态代理--InvocationHandler--MethodInterceptor
- Storm 1.0.1发布 .NET 适配也已到来
- Linux下新手基本操作及技巧看图上路 (7)
- 代码块_Dynamo?Get 7.1 什么是代码块
- 短视频抖音广告投放数据分析报告, 游戏行业抖音广告投放占比最多
- PicoNeo开发中遇到的问题(一)
- 不小心把桌面进程结束了怎么办_点击任务管理器上的结束进程电脑桌面的图标都 – 手机爱问...
- vue中 this.$set的使用
- 心率检测实现报告(三)
- 初探~对ipa包进行混淆处理
- 【LaTeX符号】条件独立与不独立符号
- 计算机病毒中错误的是什么意思,语法错误是什么意思?
- 星际争霸秘籍 星际争霸补丁
- 还是傻傻分不清云计算和大数据?看这篇就够了
- 赝势平面波计算机软件,第3章 赝势平面波方法(i).doc
- c3p0连接mysql8配置问题
- android中计算机源代码,Android源代码查看途径
- 【Cocos creator】绘图系统:Graphics组件之动态改变生成图像的透明度
热门文章
- amd显卡用黑苹果输出黑屏_教大家黑苹果英伟达免驱显卡黑屏怎么解决的方法
- 建站基础知识之CSS 究竟什么来头?
- jetson windows_生命不息,折腾不止:Jetson Nano填坑之软件篇
- java死锁怎么用jvm调试_jvm 内存dump、gc查看、线程死锁,jmap、jstack、jstat
- php处理excel类,30 个 PHP 的 Excel 处理类
- iso linux 内核版本号_Linux发行版和Linux内核的区别
- java array 元素的位置_介绍java中的两种排序工具Arrays和Collections
- java修改cookie的值_Java管理Cookie增删改查操作。
- asyu中datagrid load 与reload
- 云视通手机下载的文件存储位置_小白版丨IPFS网络怎么存储、下载文件?怎么托管网站?...