大数据经过了几年的高速发展期,在各行业领域都已有了良好的发展,无论是在政府应用、医疗领域等较大的方面,还是和广大群众日常生活相关的应用,大数据都发挥了极为出色的作用。大数据现在在应用中,主要分为了两个阶段,一个是大数据数据本身的收集处理,另一个是后续对于大数据的应用处理。

  当下政府、企业等对于数据收集的过程已经相当的熟练,数据收集的技术已经非常成熟。但是一个值得深思的问题在于,数据收集的过程,绝大部分数据都是毫无意义的数据,甚至是有害的数据。数据质量的问题一直以来都是大数据自身一个需要处理的问题。而大数据质量问题出现的原因也是各方面因素导致,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。大致原因分为两大类:数据的业务因素和数据的业务因素。

  一、数据质量的技术因素。

  数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。

  由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。

  在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,也会导致的数据采集失败、数据丢失、数据映射和转换失败。

  二、数据质量的业务因素。

  数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

  常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

  过去20年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

  大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程,它是对大数据分析结果的检验与验证,大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。

影响大数据的数据质量因素相关推荐

  1. 哪些因素影响大数据的发展

    大数据作为国家近年来支持的一项重要项目,许多相关企业围绕大数据的商业价值利用进行了数据仓库.数据安全.数据分析.数据挖掘等大数据分析项目开发,逐渐成为业界人士追求的利润焦点,但大数据分析往往容易出现各 ...

  2. 影响大数据和分析的5大趋势

    随着科技的发展和进步,人们之间的联系理应更加紧密,但是却与期望相反,很多人却变得更加分散和孤立.体中的"喜好"使人们两极分化,而其算法更加倾向于提供煽动性内容,引起更强烈的反应,并 ...

  3. 行业应用 | 大数据对新闻传播的影响 大数据

    在科学技术日新月异的时代中,数据与媒体行业间的联系也日益紧凑,计算机设备在社会各个行业中得到广泛应用,并使信息处理方式发生一定变动,使各类新闻数据信息的采集.梳理与分析效率均有不同程度的提升,强化信息 ...

  4. 大数据中心周边辐射大吗_PETCT有辐射,PETCT对陪同人员的影响大吗?

    18F-FDG(氟脱氧葡萄糖)是葡萄糖的类似物,是临床最常用的PET/CT检查显像剂:但是这个显像剂是带有辐射的,因此PETCT检查不但有来自CT扫描的辐射还有检查时注射的显像剂带来的辐射,那么PET ...

  5. 为什么大数据需要数据湖?

    自2011年"数据湖"概念被提出,业界便对数据湖一直有着广泛而不同的理解和定义. "数据湖是一个集中化存储海量的.多个来源,多种类型数据,并可以对数据进行快速加工,分析的 ...

  6. 连载:阿里巴巴大数据实践—数据建模综述

    简介:数据模型就是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公总号(文末扫描二 ...

  7. 连载:阿里巴巴大数据实践—数据开发平台

    简介:介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍. 前言: -更多关于数智化转型.数据中台内容请加入阿里云 ...

  8. 深度学习数据集中数据差异大_使用差异隐私来利用大数据并保留隐私

    深度学习数据集中数据差异大 The modern world runs on "big data," the massive data sets used by governmen ...

  9. 2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.9,刊 ...

最新文章

  1. mybatis 取list第一个_MyBatis基础搭建及架构概述
  2. AI人脸识别 生物识别 活体检测 的发展历程
  3. 第九天2017/04/18(1、友元函数、运算符重载)
  4. CMD 控制台CMD程序怎么执行完不关闭界面?@pause
  5. 如何站在期刊角度上看论文写作
  6. 只需三步就能做出可视化大屏的python工具,真香!
  7. 万能无线键盘对码软件_Ceke M87蓝牙机械键盘拆解评测 - Mac小伴侣
  8. Android 监听开机完成广播,完成监听SIM卡功能
  9. numactl mysql_CentOS学习笔记 - 10. 开发机mysql安装
  10. 原生安卓与html 好坏,安卓非原生 系统体验差别大
  11. iOS开发类似于刮刮卡效果,手指划过的区域形成画笔。适用于取出部分图片(截图),如截取出图片中带文字的区域部分。...
  12. FPGA信号处理系列文章——数字锁频环
  13. Qt 之 QQ系统表情(一)
  14. 营收环比增幅近50%,星巴克在经历“劫”后重生吗?
  15. 企业版微信公众号从零开始之一(注册账号)
  16. 新浪免费企业邮箱Foxmail客户端设…
  17. 【CSDN 竞赛第四期】参赛题解(JAVA)
  18. Java使用POI通过模板生成Word
  19. mysql导入数据时 USING BTREE 错误解决办法
  20. 安全多方计算——Yao‘s 混淆电路

热门文章

  1. jquery如何判断元素是否被点击_百度知道
  2. 物资管理信息系统4 -- 修改密码界面
  3. 基于map函数生成星战片头动画
  4. 补码,反码,原码的范围总结
  5. centos7黑客帝国装逼
  6. Java基础__Integer类型中的自动装箱
  7. 浅谈企业内部安全漏洞的运营(一):规范化
  8. 产品经理如何进行竞品分析?
  9. Angularjs-项目搭建
  10. PHP命令行脚本接收传入参数的三种方式