今年年初,蚂蚁金服ATEC城市峰会在上海举办。金融智能专场分论坛上,蚂蚁金服数据平台部高级数据技术专家李俊华做了主题为《蚂蚁金服数据治理之数据质量治理实践》的精彩分享。

演讲中,李俊华介绍了蚂蚁金服数据架构体系的免疫系统——数据质量治理体系,此外还着重介绍了数据质量实施的相关内容,以及蚂蚁的数据质量治理实践与所面对的实际挑战。

蚂蚁金服数据平台部高级数据技术专家李俊华

一、数据治理概况

近年来,蚂蚁金服不断在数据架构上进行升级改造,其目的在于解决蚂蚁所面临的数据物理孤岛问题。如今,蚂蚁以及整个阿里巴巴集团的底座都统一到了同一个平台上,这样当实现第五代数据架构体系升级时,就降低了一站式研发的整体门槛,并使得蚂蚁金服的所有工程师都可以在平台上轻松玩转数据。如今,在蚂蚁的数据架构中已经能够很好地解决数据孤岛问题,而如今在数据治理体系中所需要关注的就是逻辑的孤岛。

在对数据治理展开论述之前,先谈一谈数据价值。

之前的情况是,当数据首先需要经过专门团队负责处理,删除没有价值的数据,负责上线或者下线数据。但是,对于数据价值的判断也是一个非常令人头疼的问题,大部分的数据只会上线不会下线,这样就造成了大量没有价值的数据的堆积。而如今,蚂蚁不仅关心下线没有价值的数据,同时也侧重数据资产的价值最大化。

在数据价值方面,蚂蚁有一套完整的数据资产等级以及数据资产的易用模型,这样就能够驱动自身充分利用数据资产,来创造更多的价值。但是如果这些数据被使用了,但是质量却很低,这样就会使得数据资产的价值大打折扣。

数据质量产生分析

接下来将重点介绍蚂蚁金服在数据治理质量领域的实践思路和方案,并与大家分享两个案例。如下图所示的是抽象数据抽取的全流程图。

当某个业务同学录入数据的时候出现一点错误,就会造成数据的质量问题,比如把客户的行业信息填错或者打错了一个字都会造成数据质量问题,而这样的问题很容易出现。

在基于传统数据库资产开发数据应用的时候,基本都是从数据源端产数据过来,经过加工、分析再将数据发送出去,也就是“从业务中来,最后回到业务中去”。现在的方案与之前存在很大区别,以前做数据处理时,从数据生产的采集数据来,加工之后就给出去了,而如今蚂蚁很多数据应用将数据处理之后还会回到数据系统中。比如芝麻信用分的计算中存在很多大家看不到的场景,这些数据处理之后还会回到系统之中,而这个过程中每个环节都可能存在数据质量问题。

二、数据质量治理的挑战

在下图中的左侧展示了蚂蚁的业务形态。

如今,蚂蚁的业务场景已经不再仅限于统计分析,而在蚂蚁的芝麻分、花呗、借呗以及“310”放款的背后都是数据在进行支撑并驱动着其发展。今天,蚂蚁的业务形态成为了“技术+数据+算法”三者的融合来追求价值最大化。与此同时,数据质量治理也存在着诸多挑战,它们来自于业务方面、数据方面、用户方面。

三、数据质量治理实践

数据质量治理思路

从事金融业务的同学往往深有感触,互联网金融时代业务的生命周期缩短了很多,并且变化也非常频繁,相比于原本银行的节奏显得非常快。

此外,目前无论是蚂蚁金服还是阿里巴巴都在谈“数据业务化、业务数据化”,数据和业务一同共同发展和前进,并且已经进入了发展的深水区。之前的几年,蚂蚁在业务上偏向于“T+1”,而如今,原来的架构体系不足以支撑蚂蚁未来继续发展以及高时效性的诉求。同时,如今蚂蚁的数据体量很大,而数据业务也驱动蚂蚁的整个人才体系的升级。现在,除了本身做数据算法研发的同学之外,其他的技术同学也都会在平台上使用数据,这些同学可能对于数据的认知不同,那么在数据驱动下真正保证数据质量就显得异常重要。

那么如何实现数据质量治理呢?

首先,需要有一套明确的组织,这是持续建设企业文化的土壤,而数据质量治理文化的建设一定是一个确定的、有组织的并且需要长期持续推进的事情。在组织保障和质量文化的基础之上,蚂蚁还侧重了研发流和数据流。在金融领域,研发流的管控更严格,也更严谨。而对于如今的互联网金融而言,也需要进行强管控,这是因为业务形态决定了研发周期很短,现在蚂蚁在研发流做了强管控,在一站式数据研发平台上,使用了分级管控。需求提出之后就会被等级管理,并且进行打标,进而走入不同流程。此外,研发流上还侧重分级管控,在同一套标准上定义级别,拉平不同的研发流。对于数据流而言,当一个应用发布到生产环境之后,大部分精力花费在数据流中,每天需要从生产环境将数据采集到处理平台,然后运行算法计算,之后将数据返回到生产环境中,走这样的闭环。

如今,蚂蚁在数据流链路上做了很多事情,也建设了很多能力。对于数据流而言,如果源头被污染了,如果不能控制其污染到下游,那么越往下修复成本就越大。

基于以上的数据质量治理思路,蚂蚁金服做了很多有意思的东西,在数据平台运行时会将整个体系监控起来,如果出现数据质量故障,就能够及时进行修复。

此外,从研发到生产的各个环节,蚂蚁都做了大量的工作,这是因为基于平台进行数据研发的同学很多,需要尽量降低使用门槛。对于全数据流而言,主要建设了四大能力,包括感知能力、识别能力、智愈能力和运营能力。

平台需要能够感知发布任务的故障问题以及数据质量问题,此外,平台需要能够识别出潜在风险,因为需要非常及时地了解被破坏的数据。当风险被识别出来之后,就需要智愈能力,之所以使用“智”,是因为原本数据处理任务往往是离线的,可能从凌晨开始到早上8点钟左右属于数据生产高峰,在这段时间里会有人员参与质量保障任务。而智愈能力就希望通过AI算法来配合数据处理工作,使得感知能力叠加算法能力,能够对于数据感染进行自愈。

最后是运营能力,数据质量不会被展现在前台,如果数据质量足够好,完全可以实现无感知,使用者不用再担心数据能不能用,也不会出现敢不敢用的疑惑,因此数据质量对于运营而言也非常重要。其实,数据质量问题既不仅属于研发也不仅属于业务,而是需要全员参与,共同来解决,这就是数据治理的思路。

蚂蚁数据质量治理架构

如下图所示的是蚂蚁金服的数据质量治理架构体系。

在系统层,按照上述所谈到的具体思路,研发阶段主要集中在数据测试、发布管控以及变更管理等方面的建设,这里着重提及变更问题,数据的变更不仅仅设计到系统层的变更管理,也会涉及到在线系统的相互打通。如今,在线数据源的变更,也会使得数据运营发生变更,更可能会导致数据运营的数据质量问题。

在线研发部分为数据运营系统提供了一些相关的接口,能够通知使用者线上的哪些变更会影响到数据运营。对于发布管控能力而言,蚂蚁投入了大量精力进行研发。目前在蚂蚁已经没有专职负责数据测试的同学,基本上全部都是全栈工程师,所以对于研发而言可能管控不是非常强,但却实现了强大的发布管控能力,将与经验、规范、性能以及质量相关的检测全部在这部分执行。

在生产阶段,则主要侧重于质量监控、应急演练以及质量治理这三个系统能力。质量监控告警系统能力在大部分的数据系统架构中应该都有,其功能类似于汽车的刹车功能,因此肯定是存在的。而蚂蚁却做了一件很有意思的事情——数据攻防演练,工程师会人为创造故障,然后测试系统能否在短时间内发现故障并进行有效修复,这部分也是目前蚂蚁在重点进行建设的能力。在质量治理部分,会根据不同应用的级别,发布到生产环境之后进行定期巡检,分析是否会影响数据质量。总之,对于数据质量架构体系的系统层而言,不仅原数据非常重要,如今更是结合机器学习来自动配置一些相关策略。

数据质量治理方案

如下图所示的是蚂蚁金服在实践中的事前、事中、事后的数据质量质量方案。

整体而言,事前包括需求、研发、和预发三个阶段,而如今蚂蚁在事前可以做到的可管控、可仿真、可灰度。在事中,监控问题是重点建设的,出现问题不可怕,但是需要实现自主发现问题。而为了使得防御能力更强,蚂蚁实现了主动的攻击演练,而正是通过攻防演练,帮助蚂蚁发现了自身很多薄弱的地方。除此之外,还在事中提供了强大的应急能力,某些事件将会触发应急预案,在这部分,保证数据质量其实就是把不确定的数据风险变成确定的东西。在事后,数据质量也非常重要,事后需要通过有效的指标和管控手段来进行审计和度量,以此发现整个链路上不完善的地方并持续完善。

数据质量治理案例

最后为大家分享蚂蚁金服在数据质量治理方面的两个案例:

案例1:在蚂蚁数据治理架构体系下的发布环节,实现了一个发布强管控的流程。任何脚本在提交时都需要经过检测,然后发布到线上,并再进行一次检测。

案例2:数据治理涉及到整个链路,而针对不同链路上的数据版本,数据采集主要是将数据从一端搬运到另一端,不存在加工的过程,此时可以人为注入一些故障,分析数据质量治理体系能否发现问题并作出修改,因此这就产生了“攻”与“防”双方。数据加工处理又另外一套体系结构,其涉及逻辑的加工,更多地需要考虑注入怎样的故障,需要面临什么。如今,在蚂蚁真正落地数据质量治理体系的时候,在攻防演练环节投入了大量精力。

#阿里云开年Hi购季#幸运抽好礼!
点此抽奖:https://www.aliyun.com/acts/product-section-2019/yq-lottery?utm_content=g_1000042901

原文链接
本文为云栖社区原创内容,未经允许不得转载。

数据流被污染?数据质量不高?蚂蚁金服数据资产管理平台了解一下相关推荐

  1. 共享学习:蚂蚁金服数据孤岛解决方案

    如果有A.B.C三位同学,他们各自手上有10.15.20块钱,这时需要在相互不知道对方有多少钱的情况下,不借助力第三方来计算三个人一共有多少钱.请问这时候,我们如何实现呢?--这,就是最经典的秘密共享 ...

  2. 蚂蚁金服推出 BaaS 平台:巨头角逐之下,商业机会正快速来临

    在探索基于 BaaS 可开发应用的氛围里,梁蓉认为,这便是区块链应该发挥的作用. 午后的阳光透过落地窗直射进来,蚂蚁金服 BaaS 平台技术总监李书博等人站在讲台上等待提问,台下,近 200 位准备参 ...

  3. 揭秘蚂蚁金服智能风控平台“蚁盾”:它如何守护你的每一分财产?

    近日蚂蚁金服在成都举办的蚂蚁开放日上称,整合互联网资源帮助线下商业升级将成为下一个创业风口,并宣布面向本地创业者开放支付.信用.营销.风控等互联网技术能力.其中,风控环节的服务为推出品牌"蚁 ...

  4. 蚂蚁金服数据可视化引擎 G2 4.0 正式版发布!

    G2 是一套面向常规统计图表,以数据驱动的高交互可视化图形语法. 经历了为期半年的大规模底层重构和开发迭代,G2 4.0 终于和大家见面了.作为继 2017 年 11 月 22 日 G2 3.0 正式 ...

  5. 蚂蚁金服高级技术专家徐红星 :蚂蚁金服大数据开放式创新实践

    8月30-31日20:00-21:30,一场别开生面的技术大会-- "蚂蚁金服&阿里云在线金融技术峰会"将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域 ...

  6. 数据质量专项治理在政务大数据中的应用实践

    根据我们的研究和实践,我们认为数据资产管理活动可以分为三个方面: 第一是让数据用起来 第二是让数据用得放心 第三是让数据创造价值 我们的政府部门,尤其是政府的大数据管理部门,在过去十几年中,针对&qu ...

  7. 数据赋能丨蚂蚁金服决战To B开放

    数据赋能丨蚂蚁金服决战To B开放 李静瑕 数创客 今天 图为蚂蚁金服副总裁刘伟光 ▲ 来源:轻金融 作者:李静瑕 "再过十年,几乎所有的企业都将变成数据型驱动或者软件型驱动的公司.&quo ...

  8. 蚂蚁金服美女分析师告诉你:从数据分析到数据洞察,我们是这么玩儿的

    图丨蚂蚁金服数据分析师刘培(Faerie) [数据猿导读]大数据项目投入后收入平均仅增加了6%.一个很大的原因是传统企业大多是业务流程驱动,数据更多是作为一个报表使用 作者 | 刘培 官网 | www ...

  9. 刚刚,蚂蚁金服荣膺“中国金融大数据领军企业”称号

    ​小蚂蚁说: 2018中国软件和信息服务领域十大领军企业.人物及产业园区评选活动是业界最权威和最受关注的评选之一.12月20日,在北京举行的"2018中国软件大会"正式宣布蚂蚁金服 ...

最新文章

  1. Spring Cloud(九)高可用的分布式配置中心 Spring Cloud Config 集成 Eureka 服务
  2. maya如何查看资源大纲_3DMaya大纲视图在哪查看?
  3. 数学建模学习笔记——图论最短路径
  4. DCGAN in Tensorflow生成动漫人物
  5. 长春高中计算机考试时间安排,长春部分高中期末考试时间出炉!
  6. beyond company30天到期
  7. 什么样的摄影题材更能吸引大众的目光?
  8. Java_Spring MVC_Servlet
  9. 学计算机高考分数线,2020高考分数线预测
  10. 转载 hashtable和dictionary的区别
  11. [转载] Python判断分数等级if...elif...else
  12. 使用C++编程语言保存数据库查询结果的方法
  13. Ultra Librarian 生成Orcad封装教程
  14. android18lazuli,Free 18 Japan for you on AliExpress.
  15. 高德地图-设置点标注的文本标签
  16. 深大校园网掉线/Drcom掉线/使校园网保持在线V2.0+Linux端Drcom登录方法(宿舍区教学区)
  17. 程序员的“我爱你”表达方式
  18. Python基础 F-03 函数-命名空间与作用域
  19. win7下docker配置加速器
  20. 安装文本编辑器 Geany

热门文章

  1. php数组o m n mn,O(m + n)和O(mn)之间的区别?
  2. 【LeetCode笔记】33. 搜索旋转排序数组(Java、二分法)
  3. python定义空列表lt_Pythonlt;1gt;List
  4. 劲乐团u显示服务器维护,劲乐团9YOU原版服务端架设教程
  5. 软件测试工资高还是运维高,IT行业的6大热门岗位,薪酬都有多高?
  6. esd防护_电路级ESD防护方法
  7. huffman树_笃学不倦|c语言构造哈夫曼树哈夫曼编码
  8. active mq topic消费后删除_《我想进大厂》之MQ夺命连环11问
  9. “70后”清华教授,任大学校长
  10. 2020 年程序员高考试卷来了!