个推资深数据分析师 远见

在数据智能时代,对企业而言,“数据驱动业务”或者“数据即是业务”的理念逐渐成为业界的一种共识。然而,数据孤岛、数据标准不统一等问题在一定程度上阻碍了数据资产价值的最大化体现。个推作为专业的数据智能服务商,在数据治理方面有着丰富的实践,旨在帮助提升效率、节省成本、获取数据资产价值。

本文将从三部分讲述个推数据治理:数据治理概念解析、数据实践、常见问题分析。

01

什么是数据治理

讲具体概念前,我们先看一个生活中的例子。大家去超市买菜或买水果时,通过分区指引很快就会找到对应的蔬菜区和水果区。蔬果有打包好的、散称的,方便大家自助购买。而老的菜市场模式,菜品有些在台面上,有些还在袋子里,我们需要问老板有茄子没?有西红柿没?多少钱1斤等等。或者更原始的自家种菜模式,需要时临时去采摘。通过上述模式对比,如果我们是数据使用者,我们期望通过什么样的方式使用数据呢?数据治理的一个工作就是让数据从混乱无序到规整统一的过程,让数据使用更便捷。

图片来源自摄图网

数据治理目标

企业数据治理的目标主要是为了企业能够快速发展和效益的最大化,比如提升效率(数据开发效率或者使用效率)、节省成本、业务创新增收、风险控制等。企业通过治理运营可以及时发现并规避一些经营风险问题,有效确保数据使用的合理性与合规性。

数据治理规范

根据ISO定义,数据治理 (Data Governance, DG) 就是以服务组织战略目标为基本原则,通过组织成员的协同努力、流程制度的制定以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。治理工作旨在让数据使用更便捷,价值更易被挖掘。

上图是我们国家标准化管理委员会于18年6月发布,19年初正式实施的《数据治理规范》。由图可知,数据治理一共分为四大模块:顶层设计、数据治理环境、数据治理域、数据治理过程。其中,顶层设计是数据治理工作的基础。数据治理工作会涉及到多部门、多团队、多工种,需要根据组织当前的业务和数据现状,设定实体或虚拟组织机构,确保治理工作朝着组织战略目标前进。

目前,个推也设立了各专业的委员会和执行组织,负责把控数据工作的目标和方向、指导数据工作的开展落地等。

数据治理环境是数据治理得以成功实施的保障条件。开展数据治理之前我们需要理清领导层、管理层、业务层、执行层等等利益相关方的需求,同时识别出项目支持力量和阻力。值得注意的是,数据治理工作是个长期的过程。有关准备工作和支持力量不容忽视,因为两者直接决定了后续工作的推进是否顺利。

架构中部的数据治理域主要负责治理工作相关的制度规范、流程的制定和落地。数据治理域由数据管理体系与数据价值体系两部分构成。前者主要包括数据质量、数据安全相关的标准制度,后者主要指的是数据共享、数据服务和数据使用分析体系相关的制度。

数据治理工作需要长期持续投入,所以在具体执行过程中,我们就需要考虑用正循环的闭环方式去开展。治理过程主要包括确定数据治理目标、制定数据治理计划、执行业务梳理、设计数据架构、采集清洗数据、存储核心数据、实施元数据管理和数据血缘追踪,并定期检查治理结果与治理目标的匹配程度。

02

数据治理实践

治理工作的主要流程可以概括为“理—采—存—管—用”。“理”指的是理组织、理业务、理数据;“采”指的是让这些数据能方便地流入到中心集群中;“管”是治理的核心,指的是管元数据、管质量等等。“用”这个环节,常规方式一般是通过API予以提供。基于此流程,个推构建了自己的数据治理平台。

本文主要从系统建设层面论述数据治理的具体实践过程,系统外的工作将不再赘述。

数据集成

系统工作首先需要进行数据集成,该环节也是数据汇集和后续开展治理的前提。目前个推的数据集成模块以标准化接入为主,通过Flume采集数据到Kafka集群,再由Camus进行消费然后落地到HDFS。相较于之前需要多团队协作才能完成的数据接入工作,现在数据分析人员仅通过个推数据集成模块即可完成相应的工作。此外,为了解决数据的异地互备问题,个推还研发了数据拉取、同步功能。核心的底盘数据会通过该功能,同步到多IDC机房和集群,这样一旦某一机房发生故障,业务还可以在其他集群进行正常运转。

安全管理

为保证数据使用的安全性以及授权工作的高效化,个推构建了用户维度的角色体系和数据维度的安全策略体系。管理员根据用户所需的权限,即可进行合理化的授权。

1) 用户角色

用户角色的本质在于用户分组。我们将用户分成不同组,并赋予每个组的用户不同的权限等级。权限等级可根据人员的入职时间和岗位要求等予以设定,也可根据线上线下任务情况以及业务场景予以设定。

2)数据安全和策略

数据安全策略支持表、字段、行三种策略。表策略解决DB里相关的表是否可被使用的问题;字段策略解决表中字段是否可见及脱敏问题。个推通过去多重、去标识化的手段进行脱敏处理,有效解决了访问控制问题。

03

数据治理各阶段常见问题分析

数据查找阶段-表维度

在数据查找环节,我们会对用户设置归属组或者对数据进行打标。用户可以了解其所在组权限内的所有数据。这些数据基于访问热度,从高频到低频进行排序。根据28原则,20%的高频数据能满足80%工作需求。新员工就可以用最快的时间快速熟悉相关业务数据,数据源涵盖了Hive、HBase、MYSQL等介质。

表格上方设置了搜索框,支持表、路径、标签等维度的查询。如果发现所需数据后,我们可以进行收藏。在后续进行数据变更时,该治理平台可以及时通知使用方和收藏方;该平台也可以在新增数据资产时,根据用户使用数据的特点,进行新资产的推荐,从而提升数据使用效率,实现数据价值的最大化。

数据查找阶段-字典维度

除了表维度的查找方式,我们也提供了字典维度的查询。比如上图的地区字段,涉及到了40张表。我们只需要一键点击,这些表格就会自动按照热度进行排序。

数据学习阶段

数据的基本信息模块不仅包含字段说明、简要、生产程序、负责人、大小、标签、权限等信息,还提供对数据各字段的基本描述统计信息和样例展示。如果不满足于平台上已有的信息,我们可以通过该数据的基本信息模块找到数据生产负责人,进行进一步沟通、学习。

数据开发落地阶段

在数据开发和分析环节,个推数据治理平台支持查看数据大小、分区和文件数等信息。处理小量数据时,我们可以采用count(distinct *)方法,操作方便。但当处理百G或T级别数据量时,该方法就不奏效了。我们需要用group by 后再做count。

参照百度百科、维基百科等知识众包平台的理念,数据治理平台还提供了数据的实现逻辑、适用范围、更新历史和最佳实践板块。开发者在使用数据过程中就可以把数据的适用范围和最佳实践等信息更新到平台上。

数据链路的复杂性以及数据使用场景的多样性,会对测试和上线工作带来一定的挑战。为此,我们需要构建一个数据血缘模块,理清数据和服务的上下游。在此基础上,平台还提供了数据近期使用的频次信息,便于我们进行数据上下线的通知,也为后续数据生命周期的科学管理提供决策依据。

本文主要介绍了个推数据治理实践工作。作为拥有海量数据沉淀的数据智能公司,个推也将不断打磨自身技术,持续创新数据治理模式,与开发者一同分享数据治理实践的前沿理念与方法。

完整版分享材料获取

关注【个推技术学院】微信公众号

(微信号:getuitech)

回复关键词“数据智能

即可领取数据治理实践完整版分享材料!

此外,通过视频链接还可观看本文配套解析:

http://live.vhall.com/221291802

万亿级数据,如何高效进行数据治理相关推荐

  1. 丰农控股 CIO 王轶枭:万亿级农资市场,神策数据助力大丰收筑就数据驱动核心竞争力

    丰农控股集团成立于 2014 年初,是国内专业的农业产业服务集团.集团多年来聚焦国内种植领域,以"提升农业价值"为使命,为国内 2.6 亿种植户提供专业服务,帮助种植户解决传统农资 ...

  2. 丰农控股 CIO 王轶枭:万亿级农资市场,神策数据助力大丰收筑就数据驱动核心竞争力...

    丰农控股集团成立于 2014 年初,是国内专业的农业产业服务集团.集团多年来聚焦国内种植领域,以"提升农业价值"为使命,为国内 2.6 亿种植户提供专业服务,帮助种植户解决传统农资 ...

  3. 监控组件_分布式监控组件Cat,如何实现万亿级消息的高效存储?

    CAT(Central Application Tracking),是基于 Java 开发的分布式实时监控系统.CAT 目前在美团点评的产品定位是应用层的统一监控组件,在中间件(RPC.数据库.缓存. ...

  4. 个推CTO叶新江谈数据智能:基于万亿级图助力大数据精准防疫和健康码赋码引擎开发

    ​​近日,每日互动(个推)CTO叶新江受邀出席WAIC世界人工智能大会,并于"大数据关联下的图数据库技术与应用"主题论坛上发表演讲,同与会专家.观众共同探讨"万亿级图下的 ...

  5. 【数据架构】Netflix 万亿级实时数据基础架构的四个创新阶段

    我叫徐振中.我于 2015 年加入 Netflix,担任实时数据基础架构团队的创始工程师,后来领导了流处理引擎团队.我在 2010 年代初对实时数据产生了兴趣,从那时起我就相信还有很多价值有待发掘. ...

  6. dgiot百亿级物流标签轨迹时序数据压测

    压测背景**:** LPWAN是当前物联网行业中最重要的技术之一,以年复合增长率90%的惊人速度增长.NB-IOT.LoRa.ZETA以及Sigfox是当前市场上主流的几种LPWAN通信技术. ZET ...

  7. 数蛙科技百亿级物流标签轨迹时序数据压测

    压测背景**:** LPWAN是当前物联网行业中最重要的技术之一,以年复合增长率90%的惊人速度增长.NB-IOT.LoRa.ZETA以及Sigfox是当前市场上主流的几种LPWAN通信技术. ZET ...

  8. 亿级工具类APP头条数据聚合优化实践

    亿级工具类APP头条数据聚合优化实践 业务介绍 中华万年历的头条数据是根据推荐算法聚合而成的数据,包括ALS算法数据.用户画像数据.时效数据.非时效数据.定投数据.惊喜数据.频道数据.热榜数据.用户相 ...

  9. 16000亿!谷歌发布人类历史首个万亿级模型 Switch Transformer,中国还有机会赶超吗?...

    新年伊始,大规模预训练模型军备竞赛进入万亿参数时代.  文:梦佳.周寅张皓.贾伟 近日,Google Brain的研究人员William Fedus.Barret Zoph.Noam Shazeer等 ...

  10. AI模型加速进入万亿级时代,中国AI算力独占全球三成

    来源:新智元本文约1400字,建议阅读6分钟<全球人工智能市场半年度追踪报告>重磅发布! [ 导读 ]IDC 2020H1<全球人工智能市场半年度追踪报告>(<World ...

最新文章

  1. Tarjan算法学习笔记
  2. python paramiko模块 远程上传目录文件
  3. boost::lambda::member_pointer_action用法的测试程序
  4. 同居1月 VS 同居1年,太真实了...
  5. 华为s8600手机驱动_只有手机才能快充?华为MateBook X的灵巧快充解放你的续航焦虑-华为 ——快科技(驱动之家旗下媒体)-...
  6. Apache下设置自动将http跳转到https方法
  7. python-gui-pyqt5的使用方法-6--lambda传递参数的方法:
  8. Atitit 游戏的原理与概论attilax总结
  9. Rainmeter RocketDock丨Windows美化工具
  10. 360千兆路由计算机安装方法,千兆路由器怎么安装?
  11. Android 自定义viewGroup实现淘宝二楼及处理多指触控事件
  12. 7个引人注目的创新物联网应用
  13. android imageview图片崩溃,安卓 ImageView 的使用及崩溃闪退、空白原因
  14. Java实现腾讯云短信发送
  15. html5光线传感器,光线传感器是什么
  16. AlexNet论文翻译与解读
  17. 第七周 项目5 排队看病模拟
  18. 【数学基础】参数估计之最大后验估计(Maximum A Posteriori,MAP)
  19. struct lnode是什么结构类型_练字应该练什么之:汉字基本结构的类型
  20. 行星怎么画简单又漂亮,有手就会系列,超级简单!

热门文章

  1. 2014年3月17日 房价暴跌了吗
  2. 【普组模拟赛】马农(farmer.pas/cpp)
  3. 学习SSM中的M+(MyBatis Plus 3.4.0)~这一篇足够了
  4. 计算机显示器图片怎么铺满全屏,win10电脑显示器屏幕不能铺满怎么办_win10电脑显示不能铺满屏幕处理方法-win7之家...
  5. linux l7,GitHub - windslinux/l7detect: Network application protocol detection software
  6. 51nod-生产口罩(拓补排序+DP)by zyz
  7. HTML5 canvas 实现回合制战棋游戏(1):加载和绘制图形
  8. JavaScript倒计时算法(计算剩余多少天)实现
  9. xp访问linux系统,Linux和XP利用Samba服务实现共享互相访问
  10. 灰色预测模型--两秒直接上手