作者介绍

@云娜

某大厂数据开发平台的产品;

专注数据治理和数据平台的相关内容;

“数据人创作者联盟”成员。

全文一共2800字+,阅读需要10分钟

今天分享的主题是网易数据治理工具产品实践,主要分 4 部分:

第一部分是网易内部一些业务线过往数据治理专项活动的回顾;

第二部分是当前数据治理面临的痛点;

第三部分是针对当前的治理痛点进行产品整体策略的分享;

第四部分是数据治理工具未来的规划。

过往数据治理回顾

首先分享的是网易内部,例如严选、传媒、音乐等在数据治理方面面临的一些问题,然后是针对这些问题做出的产品策略以及初步取得的成效。对于业务线专项治理背景,都比较相似,一方面是随着业务的发展,严选、传媒和音乐的计算、存储达到瓶颈,但是对于业务方而言很难判断难以判断目前需要继续扩容增加资源,还是对劣质数据进行治理以降低资源危机,但是在这个过程中会面临如何定义劣质资源,怎么处理劣质资源,然后解决危机,因此进行治理成为亟待解决的问题。另一方面而言,数据的生产链路较长,缺乏数据加工的统一标准,整个团队内有哪些数据,这些数据应该由谁负责,团队内有哪些数据,这些数据通过哪些任务产出,数据是否被业务系统和下游系统有效使用,数据的存在是否有意义,这些问题数据团队都难以准确回答。

针对数据治理方面面临的一些问题,我们制定了以下策略:第一是具体化到治理责任人,包括表和任务具体到责任人,责任人资产梳理,指定专项治理负责人,对无认领资产下线;第二是优化存储资源,涉及到无用数据下线,首先要对无用数据规则进行定义,然后基于无用数据进行扫描诊断,然后业务方对无用数据进行确认,最后操作下线,形成闭环分析;第三是优化计算资源,对每次执行任务消耗的成本进行分析,整理出相关数据之后,业务方会根据数据来优化任务,对无用任务进行下线治理,针对某些只优化了某几个节点的任务形成前后对比分析,来了解优化是否有效,产生价值,最后是治理效果量化可评估,在存储资源治理时知道下线了多少物理存储,在设置对表生命周期管理时,因为到期进行下线处理后节省了多少存储资源,将治理成效形成可量化的指标。

接下来是成本度量体系,在业务内部会有账单体系,在体系中明确定义了计算定价和存储定价,面临的问题是如何将计算和存储折算成费用。从计算、存储的元数据仓库中对表和任务进行清洗和计算,然后将这些任务执行过程中消耗的资源结合账单体系折算成费用,会较清晰的知道调度任务、Query查询消耗的计算成本,数据表存储成本+产出表的计算任务分摊的成本。

针对于以上策略,已经有一些功能落地。首先是任务和表具体化到责任人,这个责任人可以在列表中筛选自己的任务,如果这个任务没有责任人或者责任人离职,这个任务会转接到业务专项治理责任人,然后是无用数据下线功能,会给对应人员提供入口,让他对无用数据或表确认下线,确认下线后,平台会把下线内容暂存在回收站,到达一定时期后会进行彻底的删除;接下来是表生命周期,支持对内部表和外部表的生命周期设置,防止某些表应该在一定的时间被删除,但由于没有设置生命周期,而产生冗余的存储。接下来是对离线开发和Query查询消耗的任务成本进行分析,例如任务耗时多久,每次运行产生的预估费用是多少。

然后是针对治理效果的抓手,制定负责人红黑榜,可以知道某项任务下不同人做的好坏程度,然后是对费用和下线情况的指标量化,例如下线了多少任务,节省了多少存储,预估节省了多少费用,在整体上形成清晰的认知。最后是邮件和内部工具的通知,形成催促的作用,收到通知的人包括项目管理人,他可以知道当前项目下有哪些人还没有完成相关事宜,另一类人是表和任务的真正负责人,他需要知道自己还有哪些任务需要优化,完成治理后可以为项目 节省多少费用。

2 当前治理痛点

当前治理痛点包括:(1)数据不规范,存在误删风险,表目录定义不规范,对外表生命周期管理,若未校验核对,选择删除目录文件会存在数据丢失的风险;(2)不被重视,治理动力不足,疲态应对业务需求,只开发不治理,动力不足,人员更替频繁,遗留大量历史数据;(3)治理非闭环,周期性催促治理周期性被领导催着治理,阶段性治理和资源告急循环往复,缺乏长效治理机制;(4)治理效果量化指标粗糙,各个负责人下线了哪些数据,节约了多少存储,省了多少费用,无从得知,更加衍生治理的消极心态。

在数据治理方面依然有很多填不完的坑,例如(1)存储成本,数据量持续增加,源源不断的带来存储成本;(2) 计算成本,队列资源持续紧张,任务优化迫在眉睫;(3)数据质量,加工链路长,任何一个环节都可能带来质量问题;(4)模型规范,基于ODS、DWD层生成的报表数量居高不下,模型复用率低;(4)数据安全,管理员成员繁杂,权限太大如何控制,闲置的权限如何回收;(5)数据价值

数据服务API、BI报表等下游应用系统,引用表的存储和计算成本如何估量,如何通过下游应用量化数据价值。

3 产品整体策略

接下来分享的是基于上面提到的痛点,分享产品的整体策略。在数据治理时采用的整体策略是阶梯化的治理方案,第一明确治理的范围,系统性梳理数据治理

范围,让决策者看见并关注,知道哪些数据应该进行治理;第二量化数据治理的价值,需要一套度量体系+抓手,让一线用户关注并看见问题,形成积极的治理新她爱;第三形成体系化治理,短期运营+长期机制建设,软硬策略兼施,保证落地结果并体系化工具化治理。

第一是明确治理范围,围绕数据的全生命周期展开,从数据生产到管理,包含:成本、标准、质量、安全、价值;包括数据生产,数据消费,数据管理。

第二是量化数据治理价值,基于资产健康分维度,具体涵盖以下五个方面,建立公司/项目/个人视角的数据资产量化评估体系。针对不同的资产健康分采用不同的策略。

第三是体系化的数据治理,针对刚才提到的五个方面明确每个方面需要治理的点,采用相应的手段和优化工具。主要围绕发现问题,解决手段,持续运营持续沉淀三个方面展开。

4 未来规划

最后一部分是数据治理工具未来的规划,愿景是打造成一款全流程、自动化、可落地、高质量的大数据评估和优化工具,成为数据治理的利刃;使命是降本提效,省钱省力。


网易数据治理工具产品实践相关推荐

  1. 网易云音乐数据治理探索与实践

    网易云音乐数据治理探索与实践 导读:大数据时代的到来,让很多企业看到了数据资产的价值,开始探索应用场景和商业模式,并建设相关技术平台.因此,数据治理成为了挖掘数据价值的重要手段和工具.但数据治理不仅需 ...

  2. 16款国内外数据治理工具对比

    数据治理越来越被企业重视,在这样一个数据驱动增长的时代,数据治理正在成为一些企业或单位数字化转型的必经之路.下面,就来和大家简单介绍一下16款数据治理工具,排名不分先后,包含国内外数据治理工具平台公司 ...

  3. 数据治理工具项目投标书技术部分-V1.6

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除 项目背景 二.项目目标 提供一套后勤数据治理工具部署文件及配套文档,主要技术指标如下: (1)具备数据抽取转换装载.元数据管理.数据标准 ...

  4. 《网易数据治理白皮书》:厘清企业数据治理难题

    摘要: 网易作为一家互联网公司,很早就在生产活动中应用数据的分析结果,助力业务的增长.随着业务规模的扩大,如网易云音乐.网易有道.网易新闻.网易严选等多个业务线的孵化,同时也诞生了大量的集群,内部对于 ...

  5. 数据治理的理论实践与发展趋势

    为什么80%的码农都做不了架构师?>>> 数据治理的理论实践与发展趋势 大数据时代的到来为各行业带来基于数据资产进行业务创新,管理创新的契机以及大数据技术建设需求,面向大数据环境和传 ...

  6. 【Talend、Informatica、Dataiku都是常用的数据治理工具,它们各有哪些特点和优势?】

    Talend.Informatica.Dataiku都是常用的数据治理工具,它们各有特点和优势. Talend Talend是一个开源的数据集成和数据治理工具,具有以下特点: Talend支持多种数据 ...

  7. 数据治理展示血缘关系的工具_Nebula Graph 在微众银行数据治理业务的实践

    本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 ...

  8. 货拉拉数据治理平台建设实践

    导读:在数据开发和数仓建设过程中,数据治理落地和提升数据质量的重要性逐渐凸显,本文将从货拉拉的数据治理实践出发,分享货拉拉在数据治理体系构建.数据质量平台建设.元数据平台建设方面的实践. 今天的分享会 ...

  9. 干货 | 数据治理落地难?携程度假数据治理需求设计实践

    作者简介 Leon Gu,携程数据仓库专家,负责度假数据中台和数据仓库等工作,专注于大数据.数据仓库.数据治理等领域. 一.前言 携程度假包含跟团游.自由行.玩乐.门票.用车等十多条业务线,业务涵盖线 ...

最新文章

  1. C标准库和glibc(C运行库)的关系
  2. 2015级C++第10、11周程序阅读 继承和派生
  3. redis 远程主机强迫关闭了一个现有的连接_记一次Redis+Getshell经验分享
  4. 【BZOJ4521】手机号码,数位dp
  5. Pc端微信加群的测试用例
  6. UE4 视差毛发材质
  7. springboot框架的网上书城系统 java图书销售系统
  8. OBS 录制简单操作说明
  9. Vue3使用echarts教程
  10. 垂直门户网站与SEO
  11. docker和k8s的常见命令
  12. 火狐主页被360导航劫持怎么办
  13. 华为手机USB调试搜不到设备
  14. 第四章第六题(圆上的随机点)(Random points on a circle)
  15. 360手机怎样更新系统版本android,360手机N5迎来安卓7.0稳定版升级
  16. 9.16 内存、外存与外设
  17. poj入门水题整理1--按刷题顺序解释
  18. word固定行距mathtype显示不全问题解决方法
  19. 什么是 MEMORY.DMP 文件 ?
  20. @Aspect无法使用的问题

热门文章

  1. RASA3.0-实现FAQ和chitchat功能
  2. react笔记-基础
  3. 实在智能:RPA领域如何使用CRM实现业务精益化管理
  4. SQL Server2016入门使用
  5. SpringBoot集成Kafka
  6. JavaWeb|浅谈Cookie
  7. RTX3090 与pytorch版本对应关系
  8. java 线框图_十个完全免费的网页原型(线框图)工具
  9. 为什么协程比线程的执行效率更高?
  10. pytorch.tensorboard的零基础使用