如何在HHDI中进行数据质量探查并获取数据剖析报告
通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况。目前支持以下几种数据剖析类型,分别是:数字值分析、值匹配检查、字符值分析、日期值分析、布尔值分析、重复值检查、表达式匹配、参照完整性检查、值分布分析。数据剖析完成后可以通过日志中的链接查看其产生的剖析报告。数据剖析任务可以加入到作业流程中,以支持日常的增量数据探查,任务执行完后每个剖析规则均会返回剖析结果变量,可根据变量的值进行下一步的操作,比如发邮件通知数据的维护人员。
1.) 设定剖析规则
在任务管理中选择新建数据剖析任务,进入任务编辑页面,剖析对象页签中填写源连接和源表,也可在源表查询语句中输入一段SQL,可以对数据进行转换、过滤、获取增量等操作,语句支持嵌入变量。在剖析规则页签中添加多个剖析规则,选择要剖析的字段以及剖析类型,右侧的编辑按钮可进入高级设置页面。
剖析任务在执行成功后,会产生一组剖析结果变量,主要是统计的异常值行数,可以在成功条件页签中判断变量的值,从而进行后续的处理工作。
2.) 运行数据剖析
和其它任务一样,数据剖析任务可以添加到作业流程中,可以串行或并行执行,剖析完成的行数将实时显示在日志的插入列中,执行成功后,可以点击执行信息栏中的剖析结果打开剖析报告页面。
3.) 查看剖析报告
点击日志中的剖析结果超链接,将弹出剖析报告页面,可查看所有规则的概要信息以及各规则的明细分析结果。
点击左侧规则列表,查看各规则的详细分析数据,比如查看值匹配分析:
点击红色箭头可以进一步查看明细数据,如点击其空值行数,将显示空值行数的明细数据:
转载于:https://www.cnblogs.com/haohedi/p/9672867.html
如何在HHDI中进行数据质量探查并获取数据剖析报告相关推荐
- 一款优秀的数据质量探查工具应该具有哪些功能?
当前越来越多的企业认识到了数据的重要性,数据仓库.大数据平台的建设如雨后春笋.但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源.糟糕的数据质量常常意味着糟糕的业务决策,将直接导致 ...
- 数据探索(数据清洗)①—数据质量分析(对数据中的缺失值、异常值和一致性进行分析)
Python介绍. Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分 ...
- php模拟post提交json数据,如何在PHP中利用curl模拟post提交json数据
如何在PHP中利用curl模拟post提交json数据 发布时间:2021-02-05 16:30:19 来源:亿速云 阅读:63 作者:Leah 本篇文章为大家展示了如何在PHP中利用curl模拟p ...
- 国际权威数据质量原文修订:数据质量评估的六个主要维度
数据质量评估的六个主要维度 原文下载: https://download.csdn.net/download/bigdatapang/12125767 DAMA版权所有, 翻译修订by大数据庞涛138 ...
- python的loc函数_如何在pandas中使用loc、iloc函数进行数据索引(入门篇)
在数据分析过程中,很多时候我们需要从数据表中提取出我们需要的部分,而这么做的前提是我们需要先索引出这一部分数据.今天我们就来探索一下,如何在pandas中使用loc函数和iloc函数索引数据. 今天我 ...
- java 联合_如何在java中进行联合,相交,区分和反向数据
我想在Java中有联合,相交,差异和反向操作. 首先我有2个ArrayList< Integer> a = [0,2,4,5,6,8,10] b = [5,6,7,8,9,10] 一个工会 ...
- 数据质量问题是大数据应用的关键
越来越多的企业领导者开始意识到大数据对企业的巨大影响,但是,有一个重要的提醒: 如果企业的数据不准确,不完整且一致,则在做出业务决策时可能会导致重大失误.实际上,Gartne估计数据质量不佳对企业的平 ...
- python找不到idleble_如何在python中使用pygatt从BLE设备获取通知?
我正在使用 python开发一个 Linux应用程序,它将连接到我的BLE设备并通过通知特性来获取数据.我正在使用 pygatt进行BLE通信.我可以成功连接并绑定到设备并读取/写入特性.即使我可以订 ...
- DAMA数据治理与数据质量--非结构化数据的数据质量管理
本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席 汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...
最新文章
- 自动化部署脚本,给每一台主机装上JDK,且配好环境变量
- oj上c语言编译错误,名字的漂亮度(华为OJ)C语言版本(提示格式错误,但是编译器没有报错,知道的网友提个意见)...
- Gentoo 安装日记 09 (安装stage3:下载内核)
- business man
- linux 电池管理软件,Linux电源管理(2)_Generic PM之基本概念和软件架构
- 最多金的编程语言Top10:Python第3,R第10,你猜第1是谁?
- Linux上的HotSpot GC线程CPU占用空间
- python flagin flagout_Python 进阶之路 (十) 再立Flag, 社区最全的itertools深度解析(中)...
- php aws ses,python-在AWS SES上接收和解析电子邮件
- Python模块_re正则表达式模块-2
- 2020小美赛【A题翻译+思路】
- linux下怎么卸载mysql数据库_linux 怎么完全卸载mysql数据库
- DevOps Master凤凰沙盘的学习体验
- CCS之最少拍控制器设计
- android手机 滚动截屏,安卓手机如何滚动截屏?看完图解一秒学会!
- 颜色的搭配适用,摘自某论坛
- Avazu_ctr_prediction 数据集之Avazu_x4.zip介绍
- spring boot 设置默认主页
- android hook 第三方app_基于 VirtualApp 结合 whale hook框架实现hook第三方应用
- 欺诈团伙遇上关联网络,邪不压正
热门文章
- WPF初探--RichTextBox
- usaco snail trails(dfs)
- 顺丰职级分成4级_14368!4月全国程序员均薪新鲜出炉!
- 扑克牌排序_JAVA 扑克牌排序打印,并进行洗牌
- 描述文件_【iOS】描述文件删除不了?教你一键移除所有恶意描述文件
- 电大计算机应用,(2016年电大)电大全国计算机应用考试网考.doc
- matlab中normfit,MATLAB中如何得到一组统计数据的分布特征
- python打印万年历_python青苔计划(六)打印万年历
- 主流家用计算机,年终聊装机 主流家用电脑怎么选CPU?
- 虚拟机linux 8.04汉化,在虚拟机中快速安装 Ubuntu 18.04