本文根据谭海华先生在【2020第二十四届软博会之“数据治理与流通高峰论坛暨全国DCMM现场工作会”】现场演讲内容整理而成。

演讲嘉宾介绍 - 谭海华

  • 华矩科技创始人及董事长 CEO

  • 中国管理科学研究院创新所大数据共享技术委员会主任及学术委员

  • 数据质量国际峰会 DQMIS的发起人及执行负责人

  • 数据共享联盟-数享汇创始人

  • 国家发改委培训中心特聘大数据专家讲师

  • 工业大数据应用技术国家工程实验室《工业企业大数据治理实践指南》编委会成员

  • 中国保信《保险大数据》、《中国保险报》、中保信特约撰稿人,是中保信特聘技术专家

  • 中国电子技术标准化研究院等创办的数据标准化与治理专家库首批成员

  • 广州市工业和信息化委员会大数据及人工智能专家团首批入库专家成员

  • 曾任职IBM、埃森哲咨询、微软,致力企业管理咨询、信息化建设、大数据治理及相关行业信息化解决方案研究和实施

    - 作为埃森哲资深顾问参与管理及实施国内最早一批的大型企业数据治理项目

    - 作为IBM资深顾问及SIC项目负责人参与实施华为IPD咨询项目

    - 作为IBM资深顾问参与管理及实施国内金融业最早一批的数据仓库项目策划

我首先解释一下,为什么选用这个题目。在整个大数据里,数据质量的意义毋庸置疑,为什么拿数据质量来谈?有以下两个角度:

  1. 数据治理的目的是为了提升数据质量,但是过往我们提到的数据质量可以说是站在背后,所以今天我想这个分享的主题是想看一下数据质量在整个数字经济中是怎样直接发生关系的;

  2. 数据质量是直接和经济挂钩的,数据作为生产力的一个要素,那么数据质量如何体现在我们的生产力方面,包括如何扩大经济、增加收入等。

上图是信通院在2005-2019年的报告,显示了数字经济在整个GDP的成长过程。什么叫数字经济?这份报告中提到了几个层面:数字产业化、产业数字化、数字化治理以及数字价值化。那么数字经济怎么样才能够体现在数据要素里呢?

这里有四个板块,说明了数字经济可能涉及的地方:数据治理、质量大数据的问题、大数据产业的问题、数字经济。泛义的数字经济包括互联网经济、共享经济等等,这些都是数字经济。到2022年,中国数字经济规模预估会超过60万亿。

在这个数字经济里,数据究竟扮演什么角色呢?回顾一下在整个经济发展里可能面临的问题。在另外一张图中可以更清楚地看到几个问题,首先讲为什么数据质量和数字经济有直接关联,这当中有两个观点和大家分享。我们谈的数据质量是什么?在2018年的全球数据管理论坛上有位专家提到,数据质量并不是真正数据的问题,其实更多的是业务规则问题,所以大家在处理数据质量的时候,业务规则是最重要的部分。

现在我们谈数据质量,其实有几大块,包括数据、信息语义、业务规则,但很多时候大家只看到数据本身的问题,其实更多还是数据语义的问题,以及业务规则问题。刚才前面几位嘉宾也提到了,我们要怎样保证数据定义的一致性、保证业务体验的一致性?在讲数据质量问题的时候,这些是不容易衡量的。

再看一下,数据质量是怎样影响到整个数字经济的?

首先,在数据治理中,数据质量未来是一个很大的市场。大数据应用为什么需要考虑到数据治理的问题?就是因为数据质量问题是由大数据应用产生所致,现在才回过头来看数据治理的问题;接着是人工智能,这里面包括数据算法、算力,后面会有几个例子说明在这个行业中是如何受到数据质量的影响;最后是现在比较热门的物联网。这就是数据质量在这几个领域里的影响力。

这张是关于AI的,左边说明了有关IBM沃森的失败,那么为什么它会失败?我不知道大家有没有研究过,华矩科技在这个问题上写过一篇论文,是对IBM沃森为什么现在不存在的分析,可以说这也是人工智能的一个挫败案例。沃森在中国刚开始的时候,最早落地在天津人民医院。人工智能取决于提供的数据质量,假如说数据质量不行,AI这个行业的发展就会受到很大的影响。IBM的沃森当时和癌症中心的合作,其实它最大的投入是在病例数据的整理,但是最后都没有办法实现最终的算法训练,所以导致失败。上图中可以看到,高质量的数据如何让算法更加精准,当然这里讲的是一个风控的算法,但核心意思在于:人工智能的发展中离不开高质量的数据,否则这个行业会受到非常大的影响。现在也有无人汽车驾驶、脸部识别、语音识别以及非结构化的做法,其实这些都需要大量的高质量数据去训练这个算法的。

第二个例子,流通要素与数据资产评估,大数据为什么能成为生产要素?首先是能够定价,虽然现在国内已经有很多大数据交易市场,但它们都是如何运转下去的呢?在今年华矩科技举办的数据质量管理国际峰会上,我们请到了工信部的前部长,他提出一个问题:目前行业没有办法对数据进行定价,而且这是一个极其难的问题。也就是说如何对数据进行定价成为非常重要的问题。其中数据质量是一个很关键的维度,这个维度的规范化没有实现,数据定价的问题就永远没有办法绕过去,这是其中的一点。在数据资产估值中,会看两方面的问题,左边是数据分析能力,右边是数据量和数据质量,这也间接论证了刚才提到的人工智能的发展。人工智能的发展取决于数据分析的能力,但是数据分析的能力,往往是在数据量和数据质量方面上不去,导致中间的轴线也会上不去,这也是在做数据资产评判时的一个关键要素。

上图是今日分享的第三个点:数据质量驱动业务创新。我们希望数据质量不仅仅是给AI保驾护航,以及数据资产定价。我们更希望它能够带来新的业态创新,这才是我们现在所讲的大数据价值。在这里分享几个案例,重点解释如何通过数据治理来实现类似业务在原有品质下得到升华。为什么挑了这四个案例呢?因为分别代表着不同的行业,前面两个可能更像是供应链的管理,后面是IoT,说明如何通过IoT的数据来进行烟感器的分析,最后一个是金融的。

上图是有关供应链优化的问题,图上有好多场景。刚刚清华的张老师也提到,数据治理是要有目标的,以目标来推动数据治理的方向,这是很重要的一点。这里面有四个场景,都是华矩的客户提供的,包括为什么要做契合度及不同角度的分析,其实就是因为数据质量不行,所以才需要去提升数据质量。当然,这里面的例子是说通过精准的数据找到供应商和建立供应商的信用。刚才华为的同事有提到,我们怎样寻找供应链里合适的供应商?那这里面有一个很关键的问题,假如说在你的产品数据不唯一的时候,你可能没有办法找到你所需要的供应商。在数据分析里,可能根本没有纳入到分析的目标数据,这是一个场景。

上图的案例是关于集采比价系统,说明如果没有建立“快省准”的数据质量优化技术,很多事情就需要耗费大量人力与成本,相信很多企业都会面临这样的困境,这是一个通用性的问题。这里的例子都是说明如何通过自动化技术实现规则选定,包括不同的品牌如何选定,哪类是标品?以及如何通过系统来实现这样的问题?等等。当然,这其中数据质量是核心技术。

第三个案例是做债券评估的体系,这个体系里有一个很重要的技术,就是债券的统一视图,假如说没有办法做统一视图的精准化,精准评价是没有办法实现的。

第四个案例,这也是非常有意思的案例,大家可能不知道烟感器,我们也是通过做项目之后,才知道烟感器有一个指标,就是误报率是高还是低。但是误报率有时候物理的属性是解决不了问题的,因为这和传感器的敏感度有关系,和材料及设备有关。但是可以通过大数据分析,包括对一些妨碍判断的数据甄别,并修正有关数据质量所导致的问题,降低误报率。

最后,我介绍一下华矩科技。华矩科技是专注于数据质量领域的一家企业。在这个领域里,我们有几个追求,也是我们的定位:第一,安全可靠。第二,快捷。我想大家在做数据的时候,其中快捷是非常重要的,因为数据的使用是有窗口时间的,如果不考虑窗口时间去讨论数据的架构和实现是没有意义的,这点很重要,因为时间不等人,必须要有快捷的技术。第三,便利。我们要让业务人员能透过数据和技术人员进行对话,这也是做数据的一个非常重要的环节。假如说业务人员和技术人员没有办法进行有效的交流,是没有办法让数据的效能发挥出来的。第四,智能。刚才讲到了的好多方法,包括一些要求,其中有一点,大家在做数据质量时如何去发现规则?如果都是用人工去发现规则,那么这个窗口时间是永远上不去的,所以需要有智能,智能要靠自动化技术来发现规律和规则,这是数据质量非常重要的环节。第五,低成本。大家在做数据治理的时候,有一个非常重要的追求目标,就是如何能够降低成本,这也是最重要的一点,否则你的立项不会被批准,你的项目也没有办法成功。

在这里,非常高兴能够和各位分享华矩科技过往在数据质量方面的探索,也欢迎各位有机会可以多多交流,谢谢各位!

数据质量在数字经济发展的意义相关推荐

  1. 曼孚科技丨如何通过数据服务助力数字经济发展?

    近年来,数字经济迅猛发展,互联网技术更迭的步伐不断加速,新基建带来的数字技术已成为继农业经济.工业经济之后又一重要经济形态,以移动互联网.大数据.云计算和物联网为代表的数字技术已成为经济社会高质量发展 ...

  2. 微众银行马智涛:解放数据生产力,以金融科技助力数字经济发展|数字思考者50人...

    ▎钛媒体2022特别专题策划<数字思考者50人>:探访中国50位独具代表的数字化思考者.我们理解的 TechThinker ,涵盖了中国数字化浪潮中的技术践行者.政策制定者与投资决策者.在 ...

  3. 数字经济数据2009-2019年、数字经济发展指标体系和测算2011-2020年、地级市数字经济数据2011-2019年、数字经济发展指数2011-2020年

    一.数字经济数据 1.数据来源:上市公司年报 2.时间跨度:2009-2019年 3.区域范围:3000+上市公司数据 4.指标说明: 通过文本挖掘的方法爬取上市公式年报中关于数字化转型的关键词,就和 ...

  4. 数据中心如何助力大数据、区块链、人工智能结合应用,推动数字经济发展?

    同属新基建重点点名发展的技术高地,大数据.区块链.人工智能之间有联系吗?数据中心如何承担技术底座的作用,以促进这些新兴技术的结合发展和应用,继而推动数字经济的发展? 用人体来比喻:我们人类的各个器官感 ...

  5. 赋能数字经济发展的数字政府建设:内在逻辑与创新路径

    数字政府的兴起是政府部门对经济演进到数字形态的自我适应,也是我国深化改革赋能数字经济发展的关键举措.面对数字经济条件下市场体系的特征变化及面临挑战,本文提出,数字政府赋能的核心在于增进市场机能,进而更 ...

  6. 跨越数字化周期,数据质量如何影响和驱动业务增长

    本文是根据DQMIS 2020第四届数据质量管理国际峰会数据质量业务场景应用圆桌论坛现场嘉宾讨论整理而成. 图1.1  数据质量业务场景应用圆桌论坛 (左起:<北大创新评论>执行主编谢艳老 ...

  7. 【数字经济】我国驶上数字经济发展快车道

    来源:工评圈 授权 产业智能官 转载. 读而思 在当今数字经济时代,数字化和信息化是社会发展的先导力量,对推动生产方式.生活方式.组织方式和服务方式的持续变革,促进社会的全面进步发挥着至关重要的作用. ...

  8. 2021腾讯数字生态大会:腾讯安全聚焦安全共建,护航数字经济发展

    11月3日,以"数实融合 绽放新机"为主题的2021腾讯数字生态大会在武汉开幕.在首日的主峰会上,多位腾讯高管及行业领袖.企业家对数字时代如何建设安全底座,发表了看法. 腾讯高级执 ...

  9. 提高机器学习质量的想法_如何提高机器学习的数据质量?

    提高机器学习质量的想法 The ultimate goal of every data scientist or Machine Learning evangelist is to create a ...

最新文章

  1. 理解javascript 回调函数
  2. 定义一个栈(Stack)类,用于模拟一种具有后进先出(LIFO)特性的数据结构
  3. 【Linux】1_系统部署
  4. linux的yum详解,Linux之YUM 详解
  5. 怎么做蒙特卡洛计算npv_PowerBI非标准日历下的同比环比计算,你知道怎么做吗?...
  6. Linux head命令:显示文件开头的内容
  7. Pytorch——可视化不同的优化器效果
  8. 搭建Android/Linux驱动编译开发环境篇
  9. oldboy第十三天学习
  10. hadoop 用MR实现join操作
  11. Splunk基础教程手册
  12. npz文件转为npy_numpy 文件存取 npy、npz
  13. 双人对战的球类游戏ios源码
  14. rust 连接mysql数据库_Dlang、Rust 以及 Golang 数据库操作方式对比
  15. Xshell7免费学生、家庭版分享
  16. 安利这几个网站和软件给你
  17. 抓包工具 HTTP Analyzer v7.5 的下载,安装,使用,破解说明
  18. Mutli-SG游戏 ——学习笔记
  19. 基于javaweb的律师事务所律师管理系统(java+ssm+html+js+jsp+mysql)
  20. Dijkstra 路径规划算法原理详解及 Python 代码实现

热门文章

  1. 分布式锁-Redisson快速入门
  2. CSS基础(19)_绝对定位元素的水平或垂直布局
  3. 关于腾讯csig前端面试
  4. 前端面试之 CSS 篇
  5. 格力电器参与闻泰科技收购半导体,推进500亿“造芯”计划
  6. 拒绝电脑捆绑,移动端照样轻松查看CAD图!
  7. PHP微信域名拦截检测平台源码
  8. 勤于奋国外LEAD联盟,压箱底的工具分享
  9. VC++ LoadLibrary失败,错误127(找不到指定的程序)
  10. 【软件安装】记录MySQL5.7.37安装过程以及出现的问题