网易数据治理工具产品实践
作者介绍
@云娜
某大厂数据开发平台的产品;
专注数据治理和数据平台的相关内容;
“数据人创作者联盟”成员。
全文一共2800字+,阅读需要10分钟
今天分享的主题是网易数据治理工具产品实践,主要分 4 部分:
第一部分是网易内部一些业务线过往数据治理专项活动的回顾;
第二部分是当前数据治理面临的痛点;
第三部分是针对当前的治理痛点进行产品整体策略的分享;
第四部分是数据治理工具未来的规划。
1 过往数据治理回顾
首先分享的是网易内部,例如严选、传媒、音乐等在数据治理方面面临的一些问题,然后是针对这些问题做出的产品策略以及初步取得的成效。对于业务线专项治理背景,都比较相似,一方面是随着业务的发展,严选、传媒和音乐的计算、存储达到瓶颈,但是对于业务方而言很难判断难以判断目前需要继续扩容增加资源,还是对劣质数据进行治理以降低资源危机,但是在这个过程中会面临如何定义劣质资源,怎么处理劣质资源,然后解决危机,因此进行治理成为亟待解决的问题。另一方面而言,数据的生产链路较长,缺乏数据加工的统一标准,整个团队内有哪些数据,这些数据应该由谁负责,团队内有哪些数据,这些数据通过哪些任务产出,数据是否被业务系统和下游系统有效使用,数据的存在是否有意义,这些问题数据团队都难以准确回答。
针对数据治理方面面临的一些问题,我们制定了以下策略:第一是具体化到治理责任人,包括表和任务具体到责任人,责任人资产梳理,指定专项治理负责人,对无认领资产下线;第二是优化存储资源,涉及到无用数据下线,首先要对无用数据规则进行定义,然后基于无用数据进行扫描诊断,然后业务方对无用数据进行确认,最后操作下线,形成闭环分析;第三是优化计算资源,对每次执行任务消耗的成本进行分析,整理出相关数据之后,业务方会根据数据来优化任务,对无用任务进行下线治理,针对某些只优化了某几个节点的任务形成前后对比分析,来了解优化是否有效,产生价值,最后是治理效果量化可评估,在存储资源治理时知道下线了多少物理存储,在设置对表生命周期管理时,因为到期进行下线处理后节省了多少存储资源,将治理成效形成可量化的指标。
接下来是成本度量体系,在业务内部会有账单体系,在体系中明确定义了计算定价和存储定价,面临的问题是如何将计算和存储折算成费用。从计算、存储的元数据仓库中对表和任务进行清洗和计算,然后将这些任务执行过程中消耗的资源结合账单体系折算成费用,会较清晰的知道调度任务、Query查询消耗的计算成本,数据表存储成本+产出表的计算任务分摊的成本。
针对于以上策略,已经有一些功能落地。首先是任务和表具体化到责任人,这个责任人可以在列表中筛选自己的任务,如果这个任务没有责任人或者责任人离职,这个任务会转接到业务专项治理责任人,然后是无用数据下线功能,会给对应人员提供入口,让他对无用数据或表确认下线,确认下线后,平台会把下线内容暂存在回收站,到达一定时期后会进行彻底的删除;接下来是表生命周期,支持对内部表和外部表的生命周期设置,防止某些表应该在一定的时间被删除,但由于没有设置生命周期,而产生冗余的存储。接下来是对离线开发和Query查询消耗的任务成本进行分析,例如任务耗时多久,每次运行产生的预估费用是多少。
然后是针对治理效果的抓手,制定负责人红黑榜,可以知道某项任务下不同人做的好坏程度,然后是对费用和下线情况的指标量化,例如下线了多少任务,节省了多少存储,预估节省了多少费用,在整体上形成清晰的认知。最后是邮件和内部工具的通知,形成催促的作用,收到通知的人包括项目管理人,他可以知道当前项目下有哪些人还没有完成相关事宜,另一类人是表和任务的真正负责人,他需要知道自己还有哪些任务需要优化,完成治理后可以为项目 节省多少费用。
2 当前治理痛点
当前治理痛点包括:(1)数据不规范,存在误删风险,表目录定义不规范,对外表生命周期管理,若未校验核对,选择删除目录文件会存在数据丢失的风险;(2)不被重视,治理动力不足,疲态应对业务需求,只开发不治理,动力不足,人员更替频繁,遗留大量历史数据;(3)治理非闭环,周期性催促治理周期性被领导催着治理,阶段性治理和资源告急循环往复,缺乏长效治理机制;(4)治理效果量化指标粗糙,各个负责人下线了哪些数据,节约了多少存储,省了多少费用,无从得知,更加衍生治理的消极心态。
在数据治理方面依然有很多填不完的坑,例如(1)存储成本,数据量持续增加,源源不断的带来存储成本;(2) 计算成本,队列资源持续紧张,任务优化迫在眉睫;(3)数据质量,加工链路长,任何一个环节都可能带来质量问题;(4)模型规范,基于ODS、DWD层生成的报表数量居高不下,模型复用率低;(4)数据安全,管理员成员繁杂,权限太大如何控制,闲置的权限如何回收;(5)数据价值
数据服务API、BI报表等下游应用系统,引用表的存储和计算成本如何估量,如何通过下游应用量化数据价值。
3 产品整体策略
接下来分享的是基于上面提到的痛点,分享产品的整体策略。在数据治理时采用的整体策略是阶梯化的治理方案,第一明确治理的范围,系统性梳理数据治理
范围,让决策者看见并关注,知道哪些数据应该进行治理;第二量化数据治理的价值,需要一套度量体系+抓手,让一线用户关注并看见问题,形成积极的治理新她爱;第三形成体系化治理,短期运营+长期机制建设,软硬策略兼施,保证落地结果并体系化工具化治理。
第一是明确治理范围,围绕数据的全生命周期展开,从数据生产到管理,包含:成本、标准、质量、安全、价值;包括数据生产,数据消费,数据管理。
第二是量化数据治理价值,基于资产健康分维度,具体涵盖以下五个方面,建立公司/项目/个人视角的数据资产量化评估体系。针对不同的资产健康分采用不同的策略。
第三是体系化的数据治理,针对刚才提到的五个方面明确每个方面需要治理的点,采用相应的手段和优化工具。主要围绕发现问题,解决手段,持续运营持续沉淀三个方面展开。
4 未来规划
最后一部分是数据治理工具未来的规划,愿景是打造成一款全流程、自动化、可落地、高质量的大数据评估和优化工具,成为数据治理的利刃;使命是降本提效,省钱省力。
网易数据治理工具产品实践相关推荐
- 网易云音乐数据治理探索与实践
网易云音乐数据治理探索与实践 导读:大数据时代的到来,让很多企业看到了数据资产的价值,开始探索应用场景和商业模式,并建设相关技术平台.因此,数据治理成为了挖掘数据价值的重要手段和工具.但数据治理不仅需 ...
- 16款国内外数据治理工具对比
数据治理越来越被企业重视,在这样一个数据驱动增长的时代,数据治理正在成为一些企业或单位数字化转型的必经之路.下面,就来和大家简单介绍一下16款数据治理工具,排名不分先后,包含国内外数据治理工具平台公司 ...
- 数据治理工具项目投标书技术部分-V1.6
本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除 项目背景 二.项目目标 提供一套后勤数据治理工具部署文件及配套文档,主要技术指标如下: (1)具备数据抽取转换装载.元数据管理.数据标准 ...
- 《网易数据治理白皮书》:厘清企业数据治理难题
摘要: 网易作为一家互联网公司,很早就在生产活动中应用数据的分析结果,助力业务的增长.随着业务规模的扩大,如网易云音乐.网易有道.网易新闻.网易严选等多个业务线的孵化,同时也诞生了大量的集群,内部对于 ...
- 数据治理的理论实践与发展趋势
为什么80%的码农都做不了架构师?>>> 数据治理的理论实践与发展趋势 大数据时代的到来为各行业带来基于数据资产进行业务创新,管理创新的契机以及大数据技术建设需求,面向大数据环境和传 ...
- 【Talend、Informatica、Dataiku都是常用的数据治理工具,它们各有哪些特点和优势?】
Talend.Informatica.Dataiku都是常用的数据治理工具,它们各有特点和优势. Talend Talend是一个开源的数据集成和数据治理工具,具有以下特点: Talend支持多种数据 ...
- 数据治理展示血缘关系的工具_Nebula Graph 在微众银行数据治理业务的实践
本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 ...
- 货拉拉数据治理平台建设实践
导读:在数据开发和数仓建设过程中,数据治理落地和提升数据质量的重要性逐渐凸显,本文将从货拉拉的数据治理实践出发,分享货拉拉在数据治理体系构建.数据质量平台建设.元数据平台建设方面的实践. 今天的分享会 ...
- 干货 | 数据治理落地难?携程度假数据治理需求设计实践
作者简介 Leon Gu,携程数据仓库专家,负责度假数据中台和数据仓库等工作,专注于大数据.数据仓库.数据治理等领域. 一.前言 携程度假包含跟团游.自由行.玩乐.门票.用车等十多条业务线,业务涵盖线 ...
最新文章
- C标准库和glibc(C运行库)的关系
- 2015级C++第10、11周程序阅读 继承和派生
- redis 远程主机强迫关闭了一个现有的连接_记一次Redis+Getshell经验分享
- 【BZOJ4521】手机号码,数位dp
- Pc端微信加群的测试用例
- UE4 视差毛发材质
- springboot框架的网上书城系统 java图书销售系统
- OBS 录制简单操作说明
- Vue3使用echarts教程
- 垂直门户网站与SEO
- docker和k8s的常见命令
- 火狐主页被360导航劫持怎么办
- 华为手机USB调试搜不到设备
- 第四章第六题(圆上的随机点)(Random points on a circle)
- 360手机怎样更新系统版本android,360手机N5迎来安卓7.0稳定版升级
- 9.16 内存、外存与外设
- poj入门水题整理1--按刷题顺序解释
- word固定行距mathtype显示不全问题解决方法
- 什么是 MEMORY.DMP 文件 ?
- @Aspect无法使用的问题