可以检测Hive的元数据,比如Hive表元数据存在Mysql中,可以在Mysql中查询

mysql> desc TBLS;
+--------------------+--------------+------+-----+---------+-------+
| Field              | Type         | Null | Key | Default | Extra |
+--------------------+--------------+------+-----+---------+-------+
| TBL_ID             | bigint(20)   | NO   | PRI | NULL    |       |
| CREATE_TIME        | int(11)      | NO   |     | NULL    |       |
| DB_ID              | bigint(20)   | YES  | MUL | NULL    |       |
| LAST_ACCESS_TIME   | int(11)      | NO   |     | NULL    |       |
| OWNER              | varchar(767) | YES  |     | NULL    |       |
| RETENTION          | int(11)      | NO   |     | NULL    |       |
| SD_ID              | bigint(20)   | YES  | MUL | NULL    |       |
| TBL_NAME           | varchar(128) | YES  | MUL | NULL    |       |
| TBL_TYPE           | varchar(128) | YES  |     | NULL    |       |
| VIEW_EXPANDED_TEXT | mediumtext   | YES  |     | NULL    |       |
| VIEW_ORIGINAL_TEXT | mediumtext   | YES  |     | NULL    |       |
+--------------------+--------------+------+-----+---------+-------+
mysql> desc TABLE_PARAMS;
+-------------+---------------+------+-----+---------+-------+
| Field       | Type          | Null | Key | Default | Extra |
+-------------+---------------+------+-----+---------+-------+
| TBL_ID      | bigint(20)    | NO   | PRI | NULL    |       |
| PARAM_KEY   | varchar(256)  | NO   | PRI | NULL    |       |
| PARAM_VALUE | varchar(4000) | YES  |     | NULL    |       |
+-------------+---------------+------+-----+---------+-------+

比如进行0行检测,可以写成脚本,定时执行,这样就可以哪些表只有0行

0行检测可以理解成一些表不应该存在0行的情况,如果有,需要及时告警和排查原因,甚至是0行数据会影响下游任务,需要考虑阻断下游任务的继续执行,一方面减少下游任务异常的多余告警,二来节省下游任务执行的资源。

mysql> select a.TBL_ID, a.TBL_NAME, b.PARAM_KEY, b.PARAM_VALUE from TBLS as a join TABLE_PARAMS as b where a.TBL_ID = b.TBL_ID and TBL_NAME="score" and PARAM_KEY="numRows";
+--------+----------+-----------+-------------+
| TBL_ID | TBL_NAME | PARAM_KEY | PARAM_VALUE |
+--------+----------+-----------+-------------+
|      7 | score    | numRows   | 0           |
|     33 | score    | numRows   | 0           |
|    151 | score    | numRows   | 0           |
|    242 | score    | numRows   | 0           |
+--------+----------+-----------+-------------+

阈值检测

可以提供一些类 sql
的语法,同样是作为离线的定时任务来执行检查。当然阈值检查必须考虑检查范围的问题,抽样肯定要比全量更效率更高,但是全量肯定比抽样更稳妥,需要结合资源和业务来综合衡量。

hive> set checkMode = SAMPLING;
hive> select * from emp where empno>100;
OK
7369    SMITH   CLERK   7902    1980-12-17      800.0   NULL    20
7499    ALLEN   SALESMAN        7698    1981-02-20      1600.0  300.0   30
7521    WARD    SALESMAN        7698    1981-02-22      1250.0  500.0   30
7566    JONES   MANAGER 7839    1981-04-02      2975.0  NULL    10

总结

  • 数据质量检测可以写一些脚本定时执行!

参考

数据质量监测 - 知乎

Hive 数据质量检测相关推荐

  1. 数据管理-数据质量检测

    目录 数据质量检测 完整性 一致性 准确性 及时性 数据质量检测 数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性.一致性.准确性.及时性.评估数据是否达到预期设定的质量要求,就可以 ...

  2. 大数据成败之“监”:美团数据质量监管平台这样搭建

    http://www.sohu.com/a/227310642_411876 背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力. ...

  3. pb利用datawindow查询符合条件的数据并且过滤掉其他数据_数据质量监测

    1 Overview 1.1 数据质量 在数据部门里,数据质量问题经常是被动发现,所以数据质量的问题是大多数公司数据部门都不得不面对的问题.数据质量校验的目标是监控数据管道中,生产者.处理阶段以及消费 ...

  4. DataMan-美团旅行数据质量监管平台实践

    背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力.Michael Hammer(<Reengineering the Cor ...

  5. Apache拯救世界之数据质量监控工具 - Apache Griffin

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 八股文交给我,你们专心刷题和面试 Hi,我是王知无,一个大数据领域的原创作者. 放心关注我,获取更 ...

  6. 【数据质量】数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis

    开源数据质量管理工具预研--Griffin VS Deequ VS Great expectations VS Qualitis. 概述 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重 ...

  7. VCT空间数据交换格式数据的检测方法研究

    摘要:国土资源信大量的是空间地理信息,由于现买中各GIS系统存储.管理GIS数据的格式各不相同,空间数据交换标准是实现GIS数据共享的必要途径,国土资源部制定了VCT矢量数据交换格式来实现各类国土资源 ...

  8. 一款优秀的数据质量探查工具应该具有哪些功能?

    当前越来越多的企业认识到了数据的重要性,数据仓库.大数据平台的建设如雨后春笋.但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源.糟糕的数据质量常常意味着糟糕的业务决策,将直接导致 ...

  9. 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

    编译:刘佳毅,花名佳易,阿里巴巴计算平台事业部EMR团队开发工程师,目前从事大数据安全相关方面工作. 摘要: 本文主要对Databricks如何使用Spark Streaming和Delta Lake ...

最新文章

  1. 基础环境搭建--原始mavenWeb项目
  2. 在选择数据库的路上,我们遇到过哪些坑?(1)
  3. jdk动态代理与cglib动态代理--InvocationHandler--MethodInterceptor
  4. Storm 1.0.1发布 .NET 适配也已到来
  5. Linux下新手基本操作及技巧看图上路 (7)
  6. 代码块_Dynamo?Get 7.1 什么是代码块
  7. 短视频抖音广告投放数据分析报告, 游戏行业抖音广告投放占比最多
  8. PicoNeo开发中遇到的问题(一)
  9. 不小心把桌面进程结束了怎么办_点击任务管理器上的结束进程电脑桌面的图标都 – 手机爱问...
  10. vue中 this.$set的使用
  11. 心率检测实现报告(三)
  12. 初探~对ipa包进行混淆处理
  13. 【LaTeX符号】条件独立与不独立符号
  14. 计算机病毒中错误的是什么意思,语法错误是什么意思?
  15. 星际争霸秘籍 星际争霸补丁
  16. 还是傻傻分不清云计算和大数据?看这篇就够了
  17. 赝势平面波计算机软件,第3章 赝势平面波方法(i).doc
  18. c3p0连接mysql8配置问题
  19. android中计算机源代码,Android源代码查看途径
  20. 【Cocos creator】绘图系统:Graphics组件之动态改变生成图像的透明度

热门文章

  1. amd显卡用黑苹果输出黑屏_教大家黑苹果英伟达免驱显卡黑屏怎么解决的方法
  2. 建站基础知识之CSS 究竟什么来头?
  3. jetson windows_生命不息,折腾不止:Jetson Nano填坑之软件篇
  4. java死锁怎么用jvm调试_jvm 内存dump、gc查看、线程死锁,jmap、jstack、jstat
  5. php处理excel类,30 个 PHP 的 Excel 处理类
  6. iso linux 内核版本号_Linux发行版和Linux内核的区别
  7. java array 元素的位置_介绍java中的两种排序工具Arrays和Collections
  8. java修改cookie的值_Java管理Cookie增删改查操作。
  9. asyu中datagrid load 与reload
  10. 云视通手机下载的文件存储位置_小白版丨IPFS网络怎么存储、下载文件?怎么托管网站?...