数据指标是数据化管理的核心内容之一,从事数据工作的同学相信都经历过以下场景:

1.经营分析汇报会上,产品和运营的汇报内容都包含了AppMAU指标,但是数据却不一样,老板“什么情况,谁的数据是准的!”

2.数据可视化平台上,经营概况页面上有一个指标叫券后营收,营销概况有一个指标叫优惠券抵扣营收,两个指标什么关系呢,数据相同(指标口径一样,名称不一样)。

3.数据产品上很多指标看名称并不理解指标含义,指标文档维护,线下传播,想确认一个指标的统计逻辑要几经周转。

一、指标管理的痛点问题
同名不同义,指标名称相同,统计口径不一致,缺少命名规范限制,不同业务仅从自己部门出发,缺少全局视角,如财务口径的营收要严格按照严谨的逻辑计算实收实付的每一分钱,而产品/运营端则更多考虑转化效果,但在各自的KPI监控报表中,都把指标命名为营收。
同义不同名,指标统一逻辑一致,但不同产品命名不一致,不同阶段、或不同业务方/产品经理对指标命名不同,导致在不同数据产品页面,同一指标不同名。
口径不清晰,只是同义词再复述一遍,如活跃用户数:访问用户数。
命名难理解,表意不清模棱两可,或过于专业化仅指标创建人才可以懂。例如转化率指标,有创单转化率、成单转化率,直接叫转化率可读性就非常差。
逻辑不准确,指标口径描述有误,例如UV指标,口径描述为“按照设备ID去重”,实际上不同平台去重逻辑并不一致,如微信小程序按照UnionID去重、APP按照DeviceID去重,PC和H5按照loginkey去重。
数据难追溯,数据产品指标数据来源缺少直观的链路追踪能力,指标数据异常问题排查通过翻代码去看数据来源,路径长,耗时久,早上业务反馈指标问题,排查出结论后可能一上午就过去了。
数据质量差,指标管理常见的问题综合在一起,往往会导致业务对数据指标的信任度大打折扣,发现数据波动后,第一反应是先和数据部门确认数据是不是有问题,而不是去考虑业务上有何变动。


二、指标管理平台解决方案
1.指标管理系统设计思路
        指标化管理的概念很多年前就存在,各个互联网公司都在建设自己的管理平台,学习了很多关于指标管理系统建设的文章会发现,做的事情大同小异。
主要是围绕指标管理的痛点问题,以阿里的OneData理论为方法论依据,相同的事情只要做一遍,剩下的是提供产品化的解决方案,让指标建设、指标复用更加的规范和高效。主要包括:
(1)建立指标生产协同机制,指标的诞生要经过需求申请、审核、数据开发、上线应用流程,收口指标创建过程,避免指标建设的随意性带来的“污染”
(2)制定指标命名、口径说明规范,按照原子指标+业务限定+统计维度的方式,将规则集成到平台内,通过系统规则来把控指标输出。
(3)指标字典线上化,解决线下文档(excel)管理指标存在的共享难、更新不及时、权限管控缺失等问题。指标数据逻辑绑定,即除了维护指标的业务元数据外,还要建立指标的技术元数据,指标数据从哪个模型、哪个字段、何种计算逻辑得到指标输出,指标管理最大的价值还是为数据产品提供数据输出,将Hive层模型同步到MySQL、Greenplumn、Kylin、CK等查询性能更优可以秒级响应的查询引擎,通过接口调用JDBC连接方式直接获取数据。

2.指标管理平台产品功能

(1)指标字典

目标:指标业务元数据、技术元数据信息查询和检索,在线、共享式的指标字典,方便用户快速找到目标指标,确定统计口径,申请权限,直接复用数据,提供一站式指标应用服务。
指标列表:提供所有公开指标列表展示,元数据不设权限,使用时需获得授权,以促进指标共享、减少重复开发。列表展示最关键信息,列表字段默认展示最关键信息,可以设置表格字段,操作列固定。
指标操作:查看和编辑到指标详情页,查看页面是禁用状态。当有指标权限时,可以直接使用,无权限需要申请权限。更多操作包括:删除、监控、血缘查询等功能。
添加指标:指标开发人员直接进入指标编辑页面,其他角色进入指标需求申请弹窗。开发者角色需要填写指标的业务基础信息,并绑定数据源。
指标应用:指标经过分析/产品验证通过后,即可在指标字典列表中查看,用户可申请权限使用。指标输出到其他数据产品,由系统拼接每个指标和应用方式对应的查询SQL,生成API接口,应用端每次只需要传入指标标识、Where条件(筛选条件)、GroupBY字段(维度),即可获取对应指标和维度的数据。


(2)指标需求流程

       要想达到指标口径的统一,还需要建立业务、数据产品、数据开发、数据分析、应用开发的协同机制。所有业务都可以提交指标需求,但需要经过指标审核进行评审审核,确认指标是否已经存在、需求是否明确,评审通过后,由数据开发进行指标配置,如果指标所需的数据模型已经存在,可以直接进行配置,否则需要先进行ETL工作,构建模型,数据开发配置指标并自测完成后,交付数据测试人(数据产品兼任或专职QA),确认没问题后,指标上线。业务开发接入应用到数据产品页面。详细工作流转见下图:

相应的,指标管理平台的用户需要划分为以下几类角色:

  • 普通用户:可以申请指标需求,查看指标口径,使用自己有权限的指标。
  • 指标审核员:负责审核用户提交的指标需求,一般由数据分析师、数据产品或数据开发担任。
  • 指标开发人员:数据开发担任,负责指标生产、运维及管理。
  • 数据测试:验证数据准确性,一般数据产品或分析担任。
  • 超级管理员:平台管理员。

(3)数据集管理

       数据集管理和数仓建设模型管理的区别是:数仓模型建设是面向主题的,而指标管理的数据集模块一般是面向分析的,联系是数仓模型可以作为数据集的数据源,在分析应用时,在进行模型的关联。指标基于数据集进行逻辑规则配置后,在数据产品端输出,因而在查询性能方面要求更高,因此数据集模块另一个作用就是把Hive层模型推送到MySQL、Clickhouse、Greenplum等适合OALP即席查询分析的引擎。

数据集创建过程支持SQL代码模式和模型可视化配置两种模式,数据集支持权限审批流程设置,默认审批流一般为业务发起,发起方上级审批(确定的确有必要使用),数据集负责人审批。还有一种场景是数据集是数仓人员为某业务线创建,使用权限的审批该有业务负责人审批,或者加入其它个性化流程,此时选择自定义审批流程可以支持用户自己定义审批节点及审核人。

关联维度:数据集模型用到维度字段枚举值映射操作。即建立模型维度字段与维度表字段映射关系,指标应用到对应维度时,直接获取枚举值。

(4)血缘查询

       指标血缘是指可以链路追踪指标数据加工的来源,以及输出的报表或API应用,当业务端质疑指标异常或需要确认指标口径时,可以基于血缘工具找到产出表,以及最源头的数据来源。同时,当数据质量监控测发现数据质量问题时,可以及时反馈到下游应用,应用端对用户进行提醒,避免错误的数据给用户带来负面的决策影响。通常数据血缘是服务于整个数据中台体系,所以指标平台可以复用公共的血缘查询能力,没必要单独建设,只需要把平台内的模型、数据集、指标、应用的关系数据采集好,反馈给血缘模块,血缘模块进行数据链路扩展即可。


(5)系统管理

       系统管理提供资源权限管理、用户权限管理、数据权限管理的功能,即通过管理和追踪某一指标有哪些用户有权限,或者某一用户有哪些资源权限,来保证用户只有权限看到相应的数据,以此来保证数据安全。系统管理主要包括:
资源管理:指标资源、数据集资源、维度资源的引用次数、访问频率,可直观展现资源的使用情况以及权限范围;
数据权限:主要是指标、维度以及数据集的字段权限管控,例如订单数指标可以区分地域维度,不同城市的城市经理只可以查看自己所负责的区域,因此需要对区域维度的维度值进行权限管控。

用户管理:查看用户信息,以及所拥有的资源范围,并对用户角色、权限进行管理和绑定。
角色管理:主要是解决批量管理用户权限的问题,例如给运营角色开通对应权限后,绑定这个角色的用户都具有相同的权限,不需要再逐个开通。角色管理解决通用权限需求,用户自定义申请或资源权限绑定解决个性化权限需求。

三、指标管理平台彻底解决数据口径不一致的问题吗?
       从指标管理平台提供的解决方案可以看出,主要是指标建设流程的规范化,以及指标生产到应用流程的全链路产品化。流程的规范化涉及一个指标需求在不同工种之间的需求流转,在系统初期指标上线效率整体还是比较低的。
       再者就是数据中台的思想是提高数据输出效率,很多数据中台的产品解决方案会包括自主BI数据产品,即产品和运营可以直接基于数据集进行拖拽式的分析和可视化报表配置。规范化和自助化存在交叉和冲突。
       不做指标统一管理,指标永远是错综混乱,指标标准化,一定程度又会影响数据分析的时效性,那到底该如何权衡,或者确定好指标管理平台的目标和边界呢?指标的建设是需要长期的积累和完善的,可能规范化的初期会有一段时间的阵痛期,但随着平台内指标的丰富,新增的需求可能会越来越少,即可以确定的是对于业务条线多的企业是需要将指标统一管理,对于在公共层面的通用指标,必须由指标管理平台统一生产和管理。
       而对于一些业务临时性、个性化强的指标或者数据报表需求,可以基于自助BI工具,以及SQL取数工具等,快速自助化获取所需的数据即可。
       例如,某运营部门需要对端午节新上线的一个盲盒活动进行数据监控分析,直接基于盲盒数据模型,利用自助分析进行可视化配置的效率远远高于先生产指标,再利用指标的流程。

四、总结
       指标管理平台是可以帮助企业进行指标规范化管理的有效工具,但规范化带来的牺牲就是流程的冗长和效率问题。对于共用的指标以及缓慢变化的业务,可以基于系统进行管理和维护,而对于小范围的业务条线以及时效性要求更高的业务场景,可以用自助BI等产品加以辅助,但最终的原则一定是公共指标系统化管理、流程化生产。
        另外,指标输出应用场景方面,还可以继续扩展如指标波动监控、分析报告自动生成推送等能力,把指标管理平台作为数据中台能力的出口之一,不断完善系统功能。

数据治理:数据指标管理平台解决方案相关推荐

  1. 数据治理|数据资产中心

    01 前言 我们来聊聊数据治理最最核心的部分--数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路. 02 基本概念 广义的数据资产涵盖一切非结构化.半结构化和结构化数据,狭义的数据资产主要包 ...

  2. 数据治理之元数据管理的利器——Atlas入门宝典(万字长文)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...

  3. 数据治理之元数据管理的利器——Atlas入门宝典

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...

  4. 石秀峰:数据治理之数据标准管理

    这篇是石秀峰先生直播的内容精华,内容非常干,全文6500字. 另外,石秀峰大佬写的<一本书讲透数据治理>最近刚出版,推荐大家阅读 石秀峰:数据治理之数据标准管理 来源:石秀峰-<帆软 ...

  5. 神州信息助力重庆银行数据资产服务与管理平台建设

    数据,作为数字经济时代最核心的生产要素,在数字化的推动下,正在全面融合于全社会生产经营的各个方面,推动实体经济的转型发展.对国内商业银行而言,如何基于数据,赋能自身经营管理.业务创新和客户服务,已经成 ...

  6. 企业数据治理之主数据管理

    本篇文章为亿信华辰<决战数字化转型>系列直播中<企业数据治理之主数据管理>视频直播稿件.如需获取相关资料,可登录亿信华辰官网社区进行直播回看或下载PPT. 主数据大家肯定都不陌 ...

  7. 人民链鲍大伟:打破壁垒,建立全域数据治理共享及应用平台

    2020年10月,在人民网主办的"人民链信誉评价研讨会"上,微众银行与人民在线就共建"人民链"达成战略合作.依托"人民链",微众银行融合区块 ...

  8. 秒云助力中电科32所发布“基于拟态应用集成框架的SaaS云管理平台解决方案”

    2022年4月21日,由紫金山实验室.中国网络空间内生安全技术与产业联盟主办的首届网络空间内生安全发展大会暨第四届先进计算与内生安全国际学术会议如期召开.在22日网络空间内生安全发展大会创新成果展上, ...

  9. 数据资产运营 = 数据资产盘点 + 数据治理 + 数据价值实现

    略去大数据分析背景与价值部分,言简意赅的介绍如何进行数据资产管理运营. 数据资产管理运营 = 数据资产盘点 + 数据治理 + 数据价值实现 管理和运营是一个全流程的事情,首先我们需要知道有哪些数据(盘 ...

  10. 五金机电行业供应商智慧管理平台解决方案:优化供应链管理,带动企业业绩增长

    目录 数智化供应商协同系统智慧管理供应商 供应商准入管理 供应商信息管理 供应商协同管理 供应商绩效管理 构建数智化供应商协同管理系统的方案价值 改善供应链服务水平 有效管理采购源头 提升供应链效率 ...

最新文章

  1. 公式免费转 LaTex 代码,截图、转换一气呵成,每月 1000 次全免费
  2. 测开之路二十:比较v1和v2
  3. XML和HTML有什么区别?两者之间有什么关联?
  4. Javascript - Jquery - 事件
  5. java学习(41):成员实例的定义和访问续
  6. Object-C 学习笔记(IOS程序设计课程)01
  7. phpstudy下载、安装、配置、网站部署、卸载
  8. python输入直角三角形两条直角边、输出斜边长_python直角三角形的两个直角边、求斜边_直角三角形斜边公式计算器 两个直角边边长的平方加起来等......
  9. MATLAB基础速成
  10. Windows通过虚拟机的Ubuntu系统安装、配置、管理、远程访问ClickHouse
  11. 【毕业设计】深度学习动物识别系统 - python 卷积神经网络 机器视觉
  12. 数据库实验4 SQL语言-SELECT查询操作
  13. Android如何计算View的深度
  14. python绘制蟒蛇_Python实现七彩蟒蛇绘制实例代码
  15. php tts,给博客添加TTS语音朗读 简单快速版
  16. windows无法验证发行者
  17. 新高考选科 计算机科学,上海交通大学新高考选科指南
  18. lvgl库切换使用默认字体
  19. 单相PWM整流器的数学模型、工作原理
  20. 关于win7 打kb4012212补丁失败问题。

热门文章

  1. html div 怎么排版,请html大神解决一个div排版的问题
  2. nodejs中文件上传并限制图片大小
  3. 【历史上的今天】9 月 21 日:世界上第一部商用移动电话;苹果发布 iPhone 5 ;Mini-SATA 研制成功
  4. oracle 建同义词语句,Oracle 同义词的创建
  5. 【论文阅读】中医类药性分析:使用机器学习方法预测类药性
  6. [树状数组模板] 洛谷P3368
  7. 找不到或无法加载主类什么意思(找不到或无法加载主类)
  8. 无线路由器dns服务器是什么意思,无线路由器dns是什么
  9. [经验分享] 【统计小百科】你知道AIC准则么?
  10. USB手机数据线充电线电源线出口办理CE认证的流程