平时企业都会处理数据质量的问题,越来越能够懂得数据库整套系统的运行模式和模型概念,深深觉得数据挖掘的本质其实不仅仅是从海量的数据中发现有效的,有用的,有目的性的数据,深入来说,如果大数据平台里的数据质量根本无法保证,那么数据挖掘就是毫无意义的,命中率和精确度根本没有参考价值。但是问题就出在这里,外围系统抽取隔离的数据,要怎么样清洗和梳理才能够在数据的源头上尽可能的提高数据质量?不可能每个人都懂业务,对针对性业务方面的数据质量如何提升。

  在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。

  1、元数据管理

  元数据管理简单来说,就是建立一套标准的指标(度量)、口径(维度)等体系,建立相关的单位、分组等支撑信息。目的是保证各环节的数据一致性和统一性。

  2、数据产生阶段的质量管理手段

  方法:控制输入

  尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。

  互联网行业的log数据质量之高,简直不需要进行此步骤的管理!可以说互联网的log分析直接推动了大数据分析发展的进程。

  3、数据存储阶段的质量管理手段

  方法:数据统一在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。

  4、数据加工阶段的质量管理手段

  方法:数据清洗数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理,详细操作手段见另外一个回答:数据挖掘中常用的数据清洗方法有哪些?

  5、数据使用阶段的质量管理手段

  数据使用阶段还需要质量管理?当然!无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。

  6、数据质量的持续监控和完善

  数据质量管理并不是一个流程做完就结束了。如同戴明环一样,数据质量同样要建立一个环,不断发现问题,弥补问题。在各个环节新发现的各种问题,定期进行分析,确定应对方案,并加以改进。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。

  每个企业都会存在数据质量问题。所有人都知道数据分析、数据挖掘的80%工作量都在数据处理上。但是与数据分析、数据挖掘红得发紫的热度相比,数据处理显得冷清多了。

大数据分析如何保证数据质量相关推荐

  1. 大数据可视化python_大数据分析之Python数据可视化的四种简易方法

    本篇文章探讨了大数据分析之Python数据可视化的四种简易方法,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. < 数据可视化是任何数据科学或机器学习项目的一个重要组成部分 ...

  2. 技术16期:如何更好的保证数据质量【大数据篇】

    数据质量管理不单纯是一个概念,也不单纯是一项技术.也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论.技术.业务和管理为一体的解决方案. 通过有效的数据质量控制手段,进行数据的管理 ...

  3. 工业制造中的大数据分析应用_工业大数据分析方案-美林数据

    认识工业大数据 什么是工业大数据? 我们先看看维基百科的说法:"工业大数据(Industrialbig data)是构成工业人工智能的重要元素,指由工业设备高速产生的大量数据,对应不同时间下 ...

  4. 「大数据分析」寻找数据优势:Spark和Flink终极对决

    这是数据处理引擎的发电站,它们正竞相定义下一个大数据时代 当涉及到大数据时,流计算和它所带来的实时强大分析的重要性是不可避免的.此外,当涉及到流计算时,无法避免该领域最强大的两种数据处理引擎:Spar ...

  5. Chatgpt-3 使用的提取数据集技术、数据集自动化处理和保证数据质量

    为了积累数据集,ChatGPT-3使用了一系列技术来从不同来源的文本中提取数据.其中最常用的技术包括: Web scraping:ChatGPT-3使用Web scraping技术从互联网上的网页中提 ...

  6. 大数据分析与实践 数据预处理-主成分分析

    目录: 主成分分析 1. PCA目的/作用 2. 求解步骤 3. 写代码加分析 1. 去除平均值,也称零均值化 2. 计算协方差矩阵 3. 计算协方差矩阵的特征值和特征向量 4. 将特征值排序 5. ...

  7. 大数据分析的Python实战指南:数据处理、可视化与机器学习【上进小菜猪大数据】

    上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货. 引言: 大数据分析是当今互联网时代的核心技术之一.通过有效地处理和分析大量的数据,企业可以从中获得有价值的洞察,以做出更明智的决策.本文将介 ...

  8. 【2017年第3期】面向共享的政府大数据质量标准化问题研究

    洪学海1,王志强2,杨青海2 1.中国科学院计算技术研究所,北京 100190 2. 中国标准化研究院,北京 100191 摘要:回顾了国内外数据质量研究与实践的进展,重点对ISO 8000数据质量国 ...

  9. 大数据分析与应用(中级) 数据预处理与特征工程

    目录 一.数据预处理可以包括那些操作 二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么? 1.随机抽样(Random Sampling) 2.系统抽样(Systemactic Sam ...

最新文章

  1. msvcrt.lib和LIBCD.lib链接冲突
  2. mac上安装dart环境
  3. SSL_TLS快速扫描器SSLScan常用命令集合大学霸IT达人
  4. 数据挖掘流程(三):特征工程
  5. Linux中的Kdump
  6. JVM_03 运行时数据区 [ 虚拟机栈 ]
  7. centos proftp_在CentOS上禁用ProFTP
  8. 【Linux开发】linux设备驱动归纳总结(二):模块的相关基础概念
  9. linux下安装oracle 11g R2
  10. python文本提取序列信息_从fasta文件中通过头中的ID号提取序列
  11. DPM 2010(二)---BMR裸机恢复域控制器
  12. 【雷达通信】基于matlab GUI雷达定位【含Matlab源码 302期】
  13. JAVA知识点(尚硅谷宋红康老师的b站授课自我整理)
  14. Windows中的工作组(Work Group)、域(Domain)、域控(DC)、活动目录(AD)介绍
  15. git cherry-pick的使用
  16. 计算机考试电子邮件怎么回复,计算机基础知识电子邮件使用技巧集锦(二)
  17. MT6755/HelioP10处理器性能,MT6755芯片规格资料
  18. css中浮动-----梅花
  19. 最AI 豆芽儿童机器人邀约图灵机器人创想未来
  20. 1.《The Leon Professional》

热门文章

  1. linux内核编译(升级)
  2. WPS 提示缺字体
  3. 配置iSCSI部署网络存储
  4. LINUX的文件按时间排序
  5. Eclipse Debug 配置
  6. 洛谷P1589 泥泞路
  7. mybatis-注解及其他
  8. [SQL入门级] 上篇被移出园子首页,那这篇咱就'薄利多销'
  9. ES6系列_2之新的声明方式
  10. hashCode and equals in map