庄计龙 陈敏刚

摘 要:近年来,随着科学技术的飞速发展,信息化、数字化社会正在形成。伴随而来的是数据质量问题越来越凸显。本文在分析了当前数据质量评价标准的基础上,确定以GB/T 25000.24为基础构建数据质量评价模型,并对指标权重进行研究。相比使用单个权重计算方法,本文综合Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,使得权重进一步客观。针对当层次分析法的判断矩阵经计算不满足一致性时,重新构造判断矩阵成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免重新构造判断矩阵。最后本文开发了相应的数据质量评价系统,有效地提高了数据质量评价工作的质量和效率。

关键词:数据质量;评价模型;层次分析法;熵权系数法

文章编号:2095-2163(2019)04-0071-05 中图分类号:TP311.13 文献标志码:A

0 引 言

近年来,随着科学技术的飞速发展,信息化、数字化社会正在形成。计算机系统软件已经渗透到生活的各个方面,这些软件不断地产生新的海量数据。此外,不仅仅是IT行业,越来越多的行业涉及到了数据的处理,如银行、保险、零售业、等等,数据已经成为新时代最重要的资产之一[1]。

但这些数据可能由于人为录入的错误、人为篡改、机械故障等原因,往往會存在数据属性缺失、数据相似重复、数据属性值异常等问题。这些错误可能会造成数据冗余,浪费存储的空间,甚至可能导致数据分析挖掘时产生严重的偏差[2]。在对数据进行分析挖掘之前,数据质量的好坏对于人们能否准确利用数据获得决策信息非常重要,甚至决定着数据应用的成败[3]。虽然目前关于数据质量的研究已经蓬勃兴起,但工作主要集中在数据的存储、管理、挖掘分析等方面,数据质量问题没有得到足够的重视[4]。这些缺失数据或错误数据等原因导致了数据不能很好地利用,甚至造成很大的决策失误。因此已有越来越多的专家、学者意识到数据质量对数据分析挖掘的重要性并投身于相应的数据质量研究中。

1 构建数据质量评价模型

1.1 GB/T数据质量模型

数据质量研究的诞生和发展主要是在国外,因此早期国内相关研究中的主要理论依据都是根据ISO/IEC发布的一系列标准。随着国内对数据质量的关注度逐渐提高,中国对数据质量测量的标准化也有了实质性的进展。在GB/T 25000.12-2017和GB/T 25000.24-2017(2018年5月1日开始实施)这2个国家标准中,为计算机系统中以某种结构化形式保存的数据定义了一种通用的数据质量模型,从固有的以及依赖系统的角度划分了质量特性以及对应的属性。其中包括15个特性,63个属性。

1.2 裁剪构建数据质量评价模型

裁剪指标的依据来源主要有:

(1)根据最新的国家相关数据质量标准;

(2)咨询相关领域的专业人士的意见;

(3)上海软件中心实习期间的见闻;

(4)统计相关信息系统的指标要素构成。

通过裁剪所得到的数据质量评价模型完备性、一致性、依从性、准确性、唯一性、现时性和保密性等7个一级指标构成。

2 改进数据质量评价指标权重分配方法

2.1 改进的层次分析法

处理数据质量评价过程中的权重分配需要使用层次分析法[5]。这里使用的层次分析法与传统意义上的层次分析法有区别,因而要做相应的改变。重新定义层次分析法的层次结构为目标层、指标维度层。因此新的层次分析法使用步骤如下:

(1)构建层次结构模型。层次分析法是确定权重的基础。首先需要通过对数据的理解和分析去设定顶层也即目标层,其次需要确定指标维度层;

(2)判断矩阵的建立与计算。通过所有指标维度的两两比较,然后按照某一尺度建立。这里通过邀请专家根据Santy提出的1-9标度方法作为评价尺度来建立判断矩阵;

其中,R.I.为随机一致性指标(Random Consistency Index)。对于一致性比例,当 C.R.<0.1时,认为该判断矩阵通过一致性校验,说明该判断矩阵的不一致性程度在容许范围内,则由其导出的特征向量即可作为子特性的权重向量。当C.R.>0.1时,称D不具有一致性。一般需要再次构造判断矩阵重复上述过程。为解决重新构造判断矩阵成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免重新构造判断矩阵。具体说来:当阀值0.1诱导矩阵修正法的计算步骤如下:

2.2 面向权重的熵权系数法

这里引入基于信息熵[7]的熵权系数法[8]。如果某评价指标的熵越小,说明该指标提供的信息量就越大,在综合评价中所起的作用就越大,权重就越高。反之,若评价指标的熵越大,说明该指标提供的信息量就越小,在综合评价中所起的作用就越小,权重就越低[9]。应用熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使评价结果更为准确。

在本文实际的数据质量评价中,使用熵权系数法进行权重值求取的步骤如下。

2.2.1 评语集和指标集的确立

原始的熵权系数法所考虑的评估问题,一般是设有n个评价对象(方案),m个评估指标,这样的设定方法并不适合本文数据质量评价的需求。因而本文对其所表述的含义进行如下修改,并将其记为WEWCM(Weight-Oriented Entropy Weight Coefficient Method)。

2.2.2 评价矩阵的建立

2.2.3 指标权重的求解

上文通过专家打分和统计已经构建了初始评价矩阵。在上述步骤的基础上,就可结合信息熵的知识进行指标权重的求解。其具体计算步骤如下:

3 数据质量量化评价设计与实现

3.1 功能性设计

功能性设计如图1所示。

3.2 技术架构设计

结合最新的前后端分离技术,以及对各类技术应用研究和分析,设计系统的技术采用B/S架构[10],如图2所示。

在前后端分離总体架构的基础上,逻辑上将技术架构分为4个层次,分别是视图层、业务逻辑层、数据访问层和数据层。前后端分离后,难以避免跨域问题。解决跨域问题核心代码如下:

public void addCorsMappings(CorsRegistry registry) {

registry.addMapping("/**")

.allowedOrigins("*")

.allowCredentials(true)

.allowedMethods("GET","POST", "DELETE", "PUT")

.maxAge(3600);

}

3.3 系统功能模块实现

首先明确系统的开发环境和开发工具,前端基于Node框架,所使用的开发工具为WebStorm,后端基于JDK1.8,所使用的开发工具为IntelliJ IDEA。这里仅给出数据质量评价配置模块的实现说明。

数据质量评价配置模块是本文所开发系统的核心功能模块,具体实现流程是:在前端系统的数据质量综合量化指标维度编辑界面,设置好相应规则约束等字段,然后把数据以JSON的形式发送给后端进行相应指标计算,并将结果保存到数据库和Redis缓存中,供后面计算总得分、可视化以及评价报告使用。这部分为了提高运算的速度,充分发挥CPU的性能,系统使用线程池技术。模块时序如图3所示。

4 实 验

文章使用真实电商领域的数据集进行数据质量评价实验。

(1)利用AHPIM计算权重。 通过一系列步骤算出权重为:

W={0.094,0.054,0.104,0.037,0.134,0.292,0.285},

(2)利用WEWCM计算权重。通过一系列步骤算出权重为:

w={0.149,0.184,0.149,0.230,0.184,0.070,0.035},

(3)综合AHPIM与WEWCM计算综合权重。

根据公式(10)求得质量维度的综合权重为:

w^=0.136,0.097,0.151,0.083,0.239,0.198,0.096.

在确定了指标的综合权重后,权重也作为电商领域数据的默认权重保存到系统中。接下来在所设计并实现的数据质量评价平台上评价数据的数据质量。最后得到评价分数如图4所示。

5 结束语

本文研究了数据质量现状和方向,分析了目前数据质量研究存在的不足。针对存在的问题,首先利用GB/T来替代ISO标准,其次综合多种方法计算权重,最后设计并开发了系统。详细展示了数据质量评价流程和评价方法的使用,对评价结果进行了可视化图表展示,对系统存在的问题也进行了进一步的优化,验证了方案和系统的可用性及高效性。

参考文献

[1]Jaime Campos,Pankaj Sharma,Unai Gorostegui Gabiria,Erkki Jantunen,David Baglee. A Big Data Analytical Architecture for the Asset Management[J]. Procedia CIRP,2017,64.

[2] 张元新. 网络开源数据可用性评价系统[D]. 哈尔滨工业大学,2017.

[3] 杨忠胜. 数据质量中精确性的研究[D]. 哈尔滨工业大学,2013.

[4] 延婉梅. 动车组大数据清洗关键技术研究与实现[D]. 北京交通大学,2015.

[5] Suvendu Chandan Nayak,Chitaranjan Tripathy. Deadline sensitive lease scheduling in cloud computing environment using AHP[J]. Journal of King Saud University-Computer and Information Sciences,2018,30(2).

[6] 张炳江.层次分析法及其应用案例[M].北京:电子工业出版社,2014.

[7] Michael W. Grenn,Shahram Sarkani,Thomas Mazzuchi. The requirements entropy framework in systems engineering[J]. Systems Engineering,2014,17(4).

[8] 汤永利,徐国爱,钮心忻,等. 基于信息熵的信息安全风险分析模型[J]. 北京邮电大学学报,2008(2):50-53.

[9] 文军. 基于熵权法的航空公司绩效评价研究[J]. 科学技术与工程,2009,9(22):6939-6941.

[10]李大为. 基于B/S架构的绩效考核管理系统设计与实现[D]. 吉林大学,2018.

量化评价和质化评价举例_数据质量量化评价研究与实现相关推荐

  1. 量化评价和质化评价举例_量化评价与质性评价的特点和联系

    量化评价和质性评价在理论上有分歧,但它们不是两种对立的方法,在课程评价中是非常必要和不可缺少的.它们的分歧能在课程评价实践中统一起来,互相弥补各自的缺点. 1.量化评价的特点 量化评价的优点是逻辑性强 ...

  2. 量化评价和质化评价举例_量化评价和质性评价异同点

    量化评价和质性评价在理论上有分歧,但它们不是两种对立的方法,在课程评价中是非常必要和不可缺少的.它们的分歧能在课程评价实践中统一起来,互相弥补各自的缺点. 1.量化评价的特点 量化评价的优点是逻辑性 ...

  3. 量化评价和质化评价举例_什么是量化评价?什么是质性评价?两者各有哪些优缺点...

    仅供参考: 一.课程与量化评价 所谓量化课程评价,一定是"力图把复杂的教育现象和课程现象简化为数量,进而从数量的分析与比较中推断某一评价对象的成效."这种评价方法在20世纪60年代 ...

  4. 量化评价和质化评价举例_课程评价中的量化评价与质性评价

    课程评价中的量化评价与质性评价 数学学院 课程与教学论 陈柯燃 摘要 : 量化评价与质性评价是课程评价中的两种基本方法. 这两种方法在理论基 础. 评价目的. 评价过程. 评价的具体方法.上有明显不同 ...

  5. 量化评价和质化评价举例_量化与质化

    4 量化研究与质化研究 : 社会科学领域两种对立的研究范式 冯天荃 摘

  6. 生活质量衡量系统_数据质量与数据质量八个维度指标

    数据质量与数据质量八个维度指标 数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量.质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策:错误的数据还 ...

  7. pb利用datawindow查询符合条件的数据并且过滤掉其他数据_数据质量监测

    1 Overview 1.1 数据质量 在数据部门里,数据质量问题经常是被动发现,所以数据质量的问题是大多数公司数据部门都不得不面对的问题.数据质量校验的目标是监控数据管道中,生产者.处理阶段以及消费 ...

  8. 代价敏感 数据不均衡_数据质量差的代价

    代价敏感 数据不均衡 It's amazing how nowadays the majority of us understand that AI is the way to go when tal ...

  9. 大数据多元化教学评价_多元化

    大数据多元化教学评价 Meri Williams makes some excellent points about diversity and gives some reasons as to wh ...

  10. dynamo怎样由线生成体_语音生成效果评价不再逐句进行:谷歌提出长文本语音生成评价新系统...

    随着未来 5G 移动互联网网络的飞速发展,语音交互将有可能取代键盘和触摸成为语音输入的主导方式.但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语音的效果 ...

最新文章

  1. “吴恩达deeplearningai”微信公众号上线,将发布《机器学习训练秘籍》
  2. Python版本的数据结构书_《用Python解决数据结构与算法问题》
  3. Spring Cloud Gateway 使用 Token 验证
  4. flask中的CBV , flask-session在redis中存储session , WTForms数据验证 , 偏函数 , 对象里的一些小知识...
  5. 最长重复子串(Rabin-Karp算法)
  6. 高通骁龙712移动平台正式发布!整体性能提升10%
  7. c语言链表版百度云,链表详解(C语言版)
  8. 搜索系统中的纠错问题
  9. ICML2018对抗生成网络论文评述
  10. (day 25 - 广度优先搜索 )剑指 Offer 32 - II. 从上到下打印二叉树 II
  11. Java对Json文件中数据排序_[Java教程]js之封装sort实现json格式数据的排序
  12. 硬盘分区后的逻辑结构
  13. 自动驾驶 2-4 环境表示 Environment Representation
  14. 这个用JAVA开发的全开源商城系统可免费商用
  15. html css js肝撸淘宝官网代码(淘宝web端官网页面+部分js功能实现)
  16. Linux资源管控【笔记】
  17. 符号代数方程求解,分析可视化 dsolve函数
  18. 提高Interface Builder高效工作的8个技巧
  19. SpringBoot + Thymeleaf 练手小项目 --------- 豆瓣网站模拟
  20. ABOUTCG发布Maya 刚体特效完全教程

热门文章

  1. 有什么适合小团队的协作工具?
  2. 认识PV/PVC/StorageClass
  3. c语言感叹号和逗号标红,感叹号不够用?试试感叹逗号
  4. 深入剖析线程同步工具CountDownLatch原理
  5. 关于 PCB 多层板制程能力不得不说的那些事儿
  6. 计算机专业必须用英语口语要求,哪些专业需要英语口语考试
  7. WEB测试工具---死链接检测工具xenu
  8. 小游戏开发者流量变现指南
  9. 混合云存储跨云灾备方案之跨云备份
  10. java加载so包,undefined symbol处理方法