web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。

数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域:
1 数据仓库(DW)
2数据库中的知识发现(KDD)
3数据质量管理(TDQM)
我在公司里的第一个项目就是数据质量管理,在这里在说下数据质量管理:
通过制定、实施数据质量检核,暴露各系统数据质量问题。持续监控各系统数据质量波动情况及数据质量规则占比分析,定期生成各系统关键数据质量报告,掌握系统数据质量状况。结合系统提供的清洗组件以及数据质量问题处理流程为各系统数据质量提升提供有效支撑。

数据质量(DataQuality)管理是贯穿数据生命周期的全过程,覆盖质量评估,数据去噪,数据监控,数据探查,数据清洗,数据诊断等方面。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。数据质量管理准则包括测量、提高组织数据的质量和整合性的方法。数据质量处理包括数据标准化、匹配、生存和质量监测。数据必须具备适当的质量,以解决业务要求问题。
结合大数据的参考框架及数据处理实际需求情况,数据质量管理系统主要功能定位为:数据发现、质量管理、元数据、主数据管理和信息政策管理。

在数据生命周期中,数据的获取和使用周期包括系列活动:评估,分析,调整,丢弃数据,

目前数据清洗的模型:
基于粗糙集理论数据清洗
基于聚式模式数据清洗
基于模糊匹配数据清洗模型
基于遗传神经网络数据清洗
基于专家系统体系结构等

数据校验及转换
数据校验的目的是确保抽取数据本身的正确性和完整性,
数据转换的目的是保证数据的一致性

数据清洗流程

1数据预处理: 包括数据元素化,保准化
2确定清洗方法:
3校验清洗方法:先验证所用的清洗方法是否合适,抽取小样本进行验证,判断其召回率和准确率
4执行清洗工具:
5数据归档:将新旧数据源进行归档处理,方便以后的清洗

一般情况下,模式中反应的元数据对应判断一个数据源的质量远远不够,因此通过具体实例来获得有关数据熟悉和不寻常模式的元数据很重要。这些元数据可以帮助发现数据质量问题,也有助于发现属性间的依赖关系,

1数据分析
数据分析的两种方法;
数据派生:主要对单独的某个属性进行实例分析。数据派生可以得到关于属性的很多信息,比如数据类型,长度,取值空间,离散值,他们的出现频率和不同值的个数等,通过应用统计技术,可以得到属性间的平均值,中间值标准差等
数据挖掘:帮助在大型数据集中发现特定的数据模式,可以通过数据挖掘来发现属性间的一些完整性约束如函数依赖和商业规则。

2定义清洗转换规则与工作流
根据数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤
3验证
定义的清洗规则和工作流的正确性和效率应该进行验证和评估,真正的数据清洗过程需多次迭代的进行分析设计和验证

4清洗数据中的错误
注意先备份源数据,
5干净数据回流
干净的数据替换数据源中原来的“脏数据”

数据清洗框架
A与领域无关的数据清洗框架
元数据是指”关于数据的数据“,指在数据清洗过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据,元数据在数据清洗过程中包含以下几个组件:
1基本组件:主要是对元数据的特征进行描述,包括:可以提供元数据的数据库名,数据库编号,数据库表及表的编号,表中的属性及属性的编号。

2清洗规则组件:数据质量规则定义了元数据中质量问题和数据清洗规则,包括错误数据表

3数据加载组件:用于确定异构的元数据什么时候、将什么数据加载到目的数据库中
另外的三个工作流:
(1)数据分析流(2)数据清洗工作流(3)清理结果检验工作流

B.基于领域知识相关的数据清洗框架
基于知识的数据清洗框架,在领域知识的指导下从样本数据中抽取,验证知识,然后通过专家系统引擎对整体数据进行清洗
1规则生成阶段:首先生成一个样本数据集,样本数据集是从整个数据库中抽出的小部分样本,在此基础上通过专家的参与产生规则库,在得到初步的规则后,把他们应用到数据集上,观察中间结果,进一步修改规则,在这个过程中,可以基于机器学习和统计学技术来帮助解决。

2预处理阶段:根据生成的预处理规则纠正我们能检测到的所有异常,基本的预处理包括:数据类型检测,数据格式标准化,解决数据不一致

3处理阶段:数据会接着流入 专家引擎系统,典型的规则包括脏数据检测规则,重复数据检测,错误数据更正规则

4数据加载阶段:通过数据加载规则,把清洗后的数据加载到目的数据库中

数据框架清洗设计

下面是nosql的一点笔记
Hypertable的目标就是为了解决大并发,大数据量的数据库需求,可以处理大量并发请求,管理大量数据,可扩缩性好。

数据质量管理--数据抽取和清洗相关推荐

  1. 数据治理周周谈(三):数据质量管理

    数据质量管理的定义和目的 数据质量管理是指对是指对数据从产生.获取.存储.共享.维护.应用等数据全生命周期可能出现的各类数据质量问题,进行识别.检测.度量.预警以及处理等一系列管理活动. 数据质量管理 ...

  2. DataPipeline如何实现数据质量管理

    数据质量管理已经成为数据治理的重要组成部分.高质量的数据是企业进行决策的重要依据. DataPipeline数据质量平台整合了数据质量分析.质量校验.质量监控等多方面特性, 以保证数据质量的完整性.一 ...

  3. 谈谈什么是数据质量管理

    什么是数据质量管理 数据质量管理是一组旨在维护高质量信息的实践.数据质量管理从数据采集和高级数据流程的实施一直到数据的有效分发.它还需要对信息进行管理监督.有效的数据质量管理被认为对于任何一致的数据分 ...

  4. 如何化“熵增”为“熵减”,数据质量管理尤为重要

    "熵"是热力学第二定律的核心概念,熵其实就是指的"混乱程度",简单来说熵是衡量我们这个世界中事物混乱程度的一个指标.在一个孤立系统中它的总混乱度(熵)是不会减小 ...

  5. 数据质量管理的一些思考

    背景 在近期的项目当中,我们为客户落地实施了数据资产平台.随后,在数据平台中接入了客户子公司的一个业务系统的明细数据.客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点. ...

  6. BI项目中的ETL设计详解(数据抽取、清洗与转换)

    ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败.ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更 ...

  7. etl:BI项目中的ETL设计详解(数据抽取、清洗与转换)

    ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败.ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更 ...

  8. 基于MaxCompute的数仓数据质量管理

    声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...

  9. 工业时序大数据质量管理

    工业时序大数据质量管理 丁小欧,王宏志,于晟健  哈尔滨工业大学海量数据计算研究中心,黑龙江 哈尔滨 150001 摘要:工业大数据已经成为我国制造业转型升级的重要战略资源,工业大数据分析问题正引起重 ...

最新文章

  1. Unreal Engine 4 —— 异步加载关卡的实现方法及思考
  2. 阿里达摩院正式加入5G巨头仗:瞄准新基建,成立XG实验室,要与华为战一战
  3. Qt中关于undefined reference to `vtable for故障总结
  4. 约吗? 免费领取一大波90后单身女神产品经理(增加5位女神)
  5. 51nod百度之星2016练习赛
  6. LeetCode之Weekly Contest 90
  7. think php框架 跨域,ThinkPHP框架实现session跨域问题
  8. BZOJ 2003 [Hnoi2010]Matrix 矩阵
  9. AD学习笔记2021-5-29
  10. 阶段3 3.SpringMVC·_06.异常处理及拦截器_4 SpringMVC拦截器之介绍和搭建环境
  11. C语言绘画示例-进度条
  12. 再爆hzhost6.5虚拟主机管理系统的SQL注入漏洞3
  13. OpenGL ES2.0 的三种变量类型(uniform,attribute和varying)
  14. EXCEL表格-按条件求和、求平均值、求个数详解
  15. 博睿数据拨测入场加速广电深度融合
  16. 鼠标手--IT人士/电脑使用者、网民的职业病,给网友们提个醒
  17. 2021湖南职称英语和计算机报名,20212022年职称只有湖南有而且仅有可“以考代评”的省份,发证单位权威...
  18. 企业如何选择合适的CDN加速服务?
  19. 足不出户也能放风筝?OpenGL 一招搞定!
  20. 华为鸿蒙2系统harmonyOS,华为鸿蒙系统明年目标覆盖1亿台以上设备

热门文章

  1. GND RXD TXD的说明
  2. 和疫情赛跑 30 天,湖北武汉的程序员们怎么样了?
  3. 如何使用Java来发送企业邮箱,并设计收到邮件的样式
  4. M2M系统是什么,你知道吗?
  5. Seesaw Loss:目标检测长尾分布loss
  6. 吴恩达深度学习L1W2——实现简单逻辑回归
  7. 中国乳制品设备市场趋势报告、技术动态创新及市场预测
  8. 产业研发用房是什么意思_和谷山汇城是什么项目哦?和谷山汇城的产业研发用房值得买吗?...
  9. HTML Input标签输入限制
  10. IAR工程中的各个文件的含义