通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况。目前支持以下几种数据剖析类型,分别是:数字值分析、值匹配检查、字符值分析、日期值分析、布尔值分析、重复值检查、表达式匹配、参照完整性检查、值分布分析。数据剖析完成后可以通过日志中的链接查看其产生的剖析报告。数据剖析任务可以加入到作业流程中,以支持日常的增量数据探查,任务执行完后每个剖析规则均会返回剖析结果变量,可根据变量的值进行下一步的操作,比如发邮件通知数据的维护人员。

1.) 设定剖析规则

在任务管理中选择新建数据剖析任务,进入任务编辑页面,剖析对象页签中填写源连接和源表,也可在源表查询语句中输入一段SQL,可以对数据进行转换、过滤、获取增量等操作,语句支持嵌入变量。在剖析规则页签中添加多个剖析规则,选择要剖析的字段以及剖析类型,右侧的编辑按钮可进入高级设置页面。

剖析任务在执行成功后,会产生一组剖析结果变量,主要是统计的异常值行数,可以在成功条件页签中判断变量的值,从而进行后续的处理工作。

2.) 运行数据剖析

和其它任务一样,数据剖析任务可以添加到作业流程中,可以串行或并行执行,剖析完成的行数将实时显示在日志的插入列中,执行成功后,可以点击执行信息栏中的剖析结果打开剖析报告页面。

3.) 查看剖析报告

点击日志中的剖析结果超链接,将弹出剖析报告页面,可查看所有规则的概要信息以及各规则的明细分析结果。

点击左侧规则列表,查看各规则的详细分析数据,比如查看值匹配分析:

点击红色箭头可以进一步查看明细数据,如点击其空值行数,将显示空值行数的明细数据:

转载于:https://www.cnblogs.com/haohedi/p/9672867.html

如何在HHDI中进行数据质量探查并获取数据剖析报告相关推荐

  1. 一款优秀的数据质量探查工具应该具有哪些功能?

    当前越来越多的企业认识到了数据的重要性,数据仓库.大数据平台的建设如雨后春笋.但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源.糟糕的数据质量常常意味着糟糕的业务决策,将直接导致 ...

  2. 数据探索(数据清洗)①—数据质量分析(对数据中的缺失值、异常值和一致性进行分析)

    Python介绍. Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分 ...

  3. php模拟post提交json数据,如何在PHP中利用curl模拟post提交json数据

    如何在PHP中利用curl模拟post提交json数据 发布时间:2021-02-05 16:30:19 来源:亿速云 阅读:63 作者:Leah 本篇文章为大家展示了如何在PHP中利用curl模拟p ...

  4. 国际权威数据质量原文修订:数据质量评估的六个主要维度

    数据质量评估的六个主要维度 原文下载: https://download.csdn.net/download/bigdatapang/12125767 DAMA版权所有, 翻译修订by大数据庞涛138 ...

  5. python的loc函数_如何在pandas中使用loc、iloc函数进行数据索引(入门篇)

    在数据分析过程中,很多时候我们需要从数据表中提取出我们需要的部分,而这么做的前提是我们需要先索引出这一部分数据.今天我们就来探索一下,如何在pandas中使用loc函数和iloc函数索引数据. 今天我 ...

  6. java 联合_如何在java中进行联合,相交,区分和反向数据

    我想在Java中有联合,相交,差异和反向操作. 首先我有2个ArrayList< Integer> a = [0,2,4,5,6,8,10] b = [5,6,7,8,9,10] 一个工会 ...

  7. 数据质量问题是大数据应用的关键

    越来越多的企业领导者开始意识到大数据对企业的巨大影响,但是,有一个重要的提醒: 如果企业的数据不准确,不完整且一致,则在做出业务决策时可能会导致重大失误.实际上,Gartne估计数据质量不佳对企业的平 ...

  8. python找不到idleble_如何在python中使用pygatt从BLE设备获取通知?

    我正在使用 python开发一个 Linux应用程序,它将连接到我的BLE设备并通过通知特性来获取数据.我正在使用 pygatt进行BLE通信.我可以成功连接并绑定到设备并读取/写入特性.即使我可以订 ...

  9. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

最新文章

  1. 自动化部署脚本,给每一台主机装上JDK,且配好环境变量
  2. oj上c语言编译错误,名字的漂亮度(华为OJ)C语言版本(提示格式错误,但是编译器没有报错,知道的网友提个意见)...
  3. Gentoo 安装日记 09 (安装stage3:下载内核)
  4. business man
  5. linux 电池管理软件,Linux电源管理(2)_Generic PM之基本概念和软件架构
  6. 最多金的编程语言Top10:Python第3,R第10,你猜第1是谁?
  7. Linux上的HotSpot GC线程CPU占用空间
  8. python flagin flagout_Python 进阶之路 (十) 再立Flag, 社区最全的itertools深度解析(中)...
  9. php aws ses,python-在AWS SES上接收和解析电子邮件
  10. Python模块_re正则表达式模块-2
  11. 2020小美赛【A题翻译+思路】
  12. linux下怎么卸载mysql数据库_linux 怎么完全卸载mysql数据库
  13. DevOps Master凤凰沙盘的学习体验
  14. CCS之最少拍控制器设计
  15. android手机 滚动截屏,安卓手机如何滚动截屏?看完图解一秒学会!
  16. 颜色的搭配适用,摘自某论坛
  17. Avazu_ctr_prediction 数据集之Avazu_x4.zip介绍
  18. spring boot 设置默认主页
  19. android hook 第三方app_基于 VirtualApp 结合 whale hook框架实现hook第三方应用
  20. 欺诈团伙遇上关联网络,邪不压正

热门文章

  1. WPF初探--RichTextBox
  2. usaco snail trails(dfs)
  3. 顺丰职级分成4级_14368!4月全国程序员均薪新鲜出炉!
  4. 扑克牌排序_JAVA 扑克牌排序打印,并进行洗牌
  5. 描述文件_【iOS】描述文件删除不了?教你一键移除所有恶意描述文件
  6. 电大计算机应用,(2016年电大)电大全国计算机应用考试网考.doc
  7. matlab中normfit,MATLAB中如何得到一组统计数据的分布特征
  8. python打印万年历_python青苔计划(六)打印万年历
  9. 主流家用计算机,年终聊装机 主流家用电脑怎么选CPU?
  10. 虚拟机linux 8.04汉化,在虚拟机中快速安装 Ubuntu 18.04