文章摘自6月11日,华矩科技数据治理系列讲座活动第四期谭海华先生带来的分享。

今天我想跟各位交流一下这个话题,来讲一讲我的理解。主要分为以下几个部分:

首先,谈谈数据资产的理解,我想这个问题还是有不同的角度的。平时我们讲的数据资产是比较泛化的,但今天这里讨论的是比较狭义的,是跟“资产”真正相关的,我们怎么去认定一个数据的价值,甚至我们交易里面的一些价格等等,这个是我们今天所讨论的数据资产的范围。

第二个我们会谈一下数据资产评估,以及对整个大数据发展的意义。刚才我也提到,这是一个比较关键的问题,因为它涉及到整个数据行业的一些瓶颈。

第三个主要是关注一下数据质量,比如它在整个数据资产评估中的定位等等,这部分我会重点讲一下数据质量在数据市场评估领域的一些作用。这里面也包括对于数据质量的一些理解。

最后,我想讲一下应该怎么开展数据质量评估。数据质量的评估,包括数据质量的一些管理,也是我目前正在重点去关注的一个领域。

01 对于数据资产的理解

什么是数据资产?大家想到资产,肯定也会想到财富,财富跟资产相关,但是财富又不等同于资产。那么对于数据资产的理解,我们先来看两个例子。

第一个例子是我看到的一个很有趣的报告,是一个来自地下数据交易市场的海外报道,源自Mc Afee 实验室,它展示了维萨跟万事达等金融支付卡的一些被盗窃的数据在地下交易市场的价格情况。这个表格上面一栏红色的字显示的是各个国家,美国、英国、加拿大、澳大利亚以及欧盟,左边一栏是它的几个维度,第一个首先是Software-generated,也就是每个卡非常关键的的后面几位数,能拿到这个数据就可以仿制这种信用卡。假如只有Software-generated这个数据的话,价格是不太高的,比如在美国就大概是5美元到8美元之间。然后第二个是With Bank ID number,就是除了有Software-generated,还会有卡号的数据给你要多点钱了,加上卡号后价格就上升了,比如说在美国可能要15美金左右。我们可以发现一个特点——信息越完整,价格越高。这就说明对于数据来说,越完整、越充分,在交易的时候就可能会有更高的价格。当然这个属于违法交易了,但是我这里只是举个例子,来让大家感受一下什么叫数据资产。


第二个例子也是同一份报告里的,它显示的是在线支付服务账户余额和被窃取数据价格之间的关系的一种预测。这个例子与第一个的不同之处在于,它会显示某个account里面的余额数据,也就是你可以知道这个account的余额还有多少,你买了这个account之后就可以用里面的余额去消费。通过这个例子,我们又可以得出一个结论——数据的准确度决定了价格的高低,也就是在交易中,如果能够让别人相信你的数据是准确的,你就可以获得更高的价格。


这两个例子都能够说明数据是怎么去被市场认定的,当然这可能是一个无序的市场,因为数据的定价在数据交易市场里面非常不容易,所以我们的例子只能来自于一个地下交易市场的报告。我们可以从这两个例子中去理解“什么是数据资产”。然后关于数据资产,我这里还有一些相关的信息。

首先是这个表1。对于数据这个领域,我们其实有许多概念,比如说资产、资源、资本、经济等比较“大”的说法,还有信息、数据、数字等等其他的说法,这些都是不一样的。在表1中我们可以看到这些概念的产出,1974年时数据资产这个词就已经出现了。

其次我们看看数据资产现在的一个定义。根据这个表格,数据资产是拥有数据权属(勘探权、使用权、所有权)、有价值、可计量、可读取的网络空间中的数据集。这里的“数据集”非常关键,我们对比下面的数字资产的概念可以发现,它是个体化的、以数字这种具体形态所展现出来,是不同于“数据集”的。怎么理解这个数据集呢?后面在讲数据质量的时候,我会提到它们的区别点在哪里,再详细讲“数据集”这个概念。

接下来我们看一下有关数据资产的一些属性跟识别,这是刚才已经提到过的很重要的三个部分。有时候大家讲数据资产管理、数据资产目录等等,其实本质上讲的还是数据而不是数据资产,所以我说这里所讲的数据资产是狭义上的,是真正在企业的会计准则里面来定义的,它是有价格、有价值的。在会计上把数据资源认为资产有三个维度或者说是前提条件,第一个条件就是有所有权,第二个就是能够可靠地计量,或者说可以量化,第三个就是它的价值也是可量化的,这个是我们讲的数据资产的精准概念。


当然,这三个前提条件,也让现在的业界变得并没那么容易去把一些东西变成是资产去定义和管理。在可控制层面上,技术上是可以去突破的,可变现这个问题也还是比较好界定的,现在最主要的就是可量化的问题,尤其是质量可量化的问题,它影响了我们怎么样去认定是否属于数据资产。基于这样的情况,当前大家倾向的看法是把数据资产认为是一种无形的资产。

02 数据资产评估对大数据发展的意义

接下来我们来看看,对于数据资产的问题我们的迫切性在哪里、它现在所面临的问题在哪里,以及解决这些问题对我们整个大数据行业发展的价值。

首先我们来看一下这个以前的新闻资料,它讲的是贵阳大数据交易所正式成立的事情。这里面有介绍到一些事例,但我一直都认为直到当下,数据交易和资产评估领域都还没有达到很成熟的程度,有很多问题还没有理清。怎么能够通过一个资本市场,用一种类似数据资产评估的形式,能把有通用性的指导价格体系做出来,这是大家都在探讨的问题,但是真正落地的还是不多。虽然在过去几年也成立了不少的数据交易市场或数据交易所,但这里面存在一个很大的问题——数据资产定价的问题,这就与数据资产的评估体系是相关联的。这是有关数据交易市场的直接情况,我们可以看出,现在的数据交易市场是跟数据资产评估体系直接相关的。

接下来有几个观点我们需要关注一下,引用的都是现在的不同研究流派的一些观点,它们大的逻辑层面是大同小异的。

第一个是数据资产化的基本框架,这里面有一个环节就是“数据价值的确认与质量的管控”,在数据资产的领域里面是避不开数据质量的,后面我们会越来越深地去看这个问题。

第二个是大数据交易中心市场化运作框架,其中有一点就是“数据交易的定价体系”。不可回避的是,作为数据交易来讲,数据定价体系是一个极其关键的环节,否则就没办法叫做交易市场。

第三个是数据资产化的一个过程,我们会看到数据质量评估怎么影响数据市场化的整个过程,包括比如前面提到过的标准化问题。

第四个是数据定价的影响因素,其中数据质量是一个很核心的要素。

第五个是关于提升数据质量的,提升数据质量是提升数据资产估值的重要手段,包括比如我们怎么通过数据治理、数据质量的优化来提升我们的数据资产的价格。

从这些观点中,我们可以看到,数据质量影响到数据的价格甚至数据资产估值。但是数据质量是怎么样体现在我们的数据资产里面的、它是怎么样起作用的呢?数据资产作为一个很特殊的资产,跟其他的资产有不同的地方,一个方面是数据量与数据质量,还有一个方面是数据分析能力,也就是说你怎么样恰如其分把数据用到了最有价值的地方。我这里把数据资产与石油进行一个类比,二者有许多相似之处。比如数据资产估值的时候有成本因素,就像石油开采的成本;还有数据加工后会产生附加值的变化,石油也有炼油的过程;数据质量会影响数据资产估值,石油的油品也影响它的价格。数据资产跟一般资产最大的不同,在于它被使用在什么地方、怎样加工极大地影响了它的价值。

数据资产本身的估值有很多方法,而我们今天讨论的重点是作为其中一个关键要素的数据质量,我们怎么去量化数据质量、进行它的评估,以及作为我们数据资产估值的整体或者综合评估的重要一环,它是怎么影响到数据资产的估值量化的。所以下面我将会跟大家提到数据质量问题。

03 对于数据质量的理解

数据质量看起来是非常好理解的,但是我们今天要讲的更细、更深入一点,讲讲它到底具体是什么。

美国的一个科学家在一个全球数据治理大会上提到,“归根到底,数据质量并不是你数据的问题,它是你的商业语义词汇及业务规则的质量问题”,这句话我非常认同。这可能跟大家所认知的数据质量有区别,数据质量有它更多的一些内涵,比如这里面提到了一个业务规则的问题。

首先我们看看这个图,反映了我们观察数据质量的角度,包括数据、信息/语义和业务规则,它们三者共同构成了我们在一个商业活动里面的一些最基本的构成,我们所讲的数据质量涵盖了这三大块。数据和信息/语义都很好理解,那么什么是业务规则呢?以数据跟信息/语义为单位的所发生的这种关联点,就是我们所提到的业务规则。


我们来举个例子,比如保险行业,在系统里面业务规则是讲,就是说如果一个客户下了一个订单,它必须安排一个代理人去跟进,这里面的话我们会把这句话再分解一下,如果一个客户记录里面有任何一个记录订单,那么这个客户的记录里相应的用于标识是否被派遣了代理人的字段上必须填上了系统认可的标志。但是我们再往下看的话,你会发现它会导致潜在的数据质量问题,比如说刚才讲到的客户记录可能会有库表的重复记录的问题,有理解的歧义性的问题,有标识一致性的问题等等。

所以,在讨论一个数据质量的时候,会有隐藏的这些问题,包括影响数据质量的数据和信息语义的相关指标,以及影响数据质量的相关数据规则。

其中,业务规则会根据不同的层级,有不同的这种业务规则的这种定义,比如数据属性级的,我们有一些也有业务规则的,有一些是表间的,它是有分不同层级的,这三个共同构成了我们数据质量的影响因素。

04 如何进行数据质量评估

接下来,我们就看是怎么样去进行数据质量评估。

首先,我们会有一定的维度,包括业务规则,我们会对数据的质量会有不同的维度,包括跟对应的不同的业务规则来进行一些量化的检查评估或者诊断,然后出来一些量化的结论。

其次,我们还有一些原理,就是说数据质量评估我们的角度或者说我们所要谈及的是什么,刚才我已经提到了有数据层面、有信息层面、有业务规则层面,这些规则其实都是符合由易到难,所谓的难就是它的关联性,呈现在不同层级的。

接下来,我们讲一讲数据质量的评分,你可以设置一个评分指标体系,比如说一致性、准确性、完整性等等这种可以进行一些量化,最后出来一个总体评价,这个是我们讲的评估具体能够落地的一个地方。前面也讲了数据集的概念,就是说他是有关联的,数据之间是有关联的,不仅是独立存在的,这个是讲了数据质量评分卡的问题。

最后,我们再向深入探讨,就是具体怎么去进行量化。不管是字段还是表间级,还是这个行业的这种业务层级的这种规则,都有一些量化的规则在里面,然后这边就会有它的通过率,通过这种通过率可以逐步地去把量化的东西算出来。

总体而言,今天主要跟大家分享了数据资产的评估,以及怎么抓住数据质量的评估进行突破。当然这里还有一些问题包括数据资产的价格认定等在业界是还没有讨论清楚的,只是我们今天重点解释了数据质量评估与数据资产评估的一些关系,希望对大家有所启发,谢谢!

数据质量在数据资产评估中有着怎样的作用?相关推荐

  1. 生活质量衡量系统_数据质量与数据质量八个维度指标

    数据质量与数据质量八个维度指标 数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量.质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策:错误的数据还 ...

  2. 计算机视觉:从数据量、数据质量、数据复杂度、数据隐私介绍图片数据处理难度

    本文重点 计算机视觉是一门研究如何让计算机处理和理解图像的学科,其应用范围非常广泛,包括图像识别.目标检测.人脸识别.车辆识别.医学图像处理等.在计算机视觉领域中,图片数据的处理是非常重要的一环,但也 ...

  3. 【数据质量】数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis

    开源数据质量管理工具预研--Griffin VS Deequ VS Great expectations VS Qualitis. 概述 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重 ...

  4. 数据质量专项治理在政务大数据中的应用实践

    根据我们的研究和实践,我们认为数据资产管理活动可以分为三个方面: 第一是让数据用起来 第二是让数据用得放心 第三是让数据创造价值 我们的政府部门,尤其是政府的大数据管理部门,在过去十几年中,针对&qu ...

  5. 数据探索(数据清洗)①—数据质量分析(对数据中的缺失值、异常值和一致性进行分析)

    Python介绍. Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分 ...

  6. 什么是数据质量-- 读DAMA数据管理有感

    通过学习数据管理知识管理体系指南,了解到在数据质量管理过程中,一个重要原则就是将改进集中在对组织及客户最重要的数据之上开展(即关键数据),也就是说,并不是所有的数据都一样重要,要分出来三六九等,要好钢 ...

  7. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  8. 技术16期:如何更好的保证数据质量【大数据篇】

    数据质量管理不单纯是一个概念,也不单纯是一项技术.也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论.技术.业务和管理为一体的解决方案. 通过有效的数据质量控制手段,进行数据的管理 ...

  9. 独家 | 识别并解决数据质量问题的数据科学家指南

    作者:Arunn Thevapalan 翻译:陈超校对:王紫岳本文约3000字,建议阅读9分钟 本文介绍了Python中的Ydata-quality库如何应用于数据质量诊断,并给出数据实例进行详细的一 ...

最新文章

  1. 《Redis入门指南(第2版)》一3.2 字符串类型
  2. 绘图: matplotlib核心剖析
  3. Java教程之RabbitMQ介绍
  4. 哦豁?这个程序员…… 有、东西!
  5. 迁移pg_PG奥斯卡!云数据库专属集群MyBase荣获2020 PG亚洲大会“年度最佳产品奖”...
  6. android图像处理系列之五-- 给图片添加边框(中)
  7. Java中值传递和引用传递原理以及区别
  8. Spring Boot JWT 快速入门
  9. Asp.net C# 遍历Excel中的表格名称
  10. Mouse Jiggler – 自动移动光标,防止电脑启动屏保、进入休眠[Windows]
  11. mysql偏差聚集_My SQL聚合函数
  12. C#学习笔记(十一):类和对象
  13. DefaultNetworkCredentials vs DefaultCredentials
  14. Python之网络爬虫(selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密)
  15. 开发一款浏览器内核需要学习哪些方面的知识?
  16. Spring注解的使用和区别:@Component、@Service、@Repository、@Controller
  17. VM无法将网络更改为桥接状态:没有未桥接的主机网络适配器
  18. 关于cos(x^2)的傅里叶逆变换(Inverse Fourier Transform)
  19. 百度搜索稳定性问题分析的故事(上)
  20. 伦茨科技-智能语音遥控器

热门文章

  1. Android STB HDMI开发
  2. android播放器如何获取音乐文件信息
  3. 校园铃声系统 v6.2 官方
  4. 含钆介孔二氧化硅海藻酸钠纳米微球/桑色素二氧化硅单发光纳米微球的制备过程
  5. xt1085android7.1,MOTO X+1(XT1085)官方解锁bootloader图文教程+去掉提示
  6. win+ubuntu双系统grub开机顺序设置
  7. Footprint_Expert_2022-04_Pro 可以产生 cadence SPB16.6的封装
  8. 集丰照明|园林景观灯光设计
  9. CSS3 transform3D 图片翻转效果
  10. 湖南大学计算机复试,湖南大学考研复试