《CIO创享》专刊 |004 篇

文 |  摘自CIO创享群内嘉宾分享内容,

发布已获作者授权,转载请备注。

总策划/指导| 贝 贝

总编辑 | 夏 乔、托 尼

文字6989字 | 约13分钟阅读

? 小澜友情提醒:配合录音,阅读效果更佳哦!

还有彩蛋等你寻找哦~


本期讲师:影姿(笔名:「真的影子」),数澜科技高级产品总监,《标签资产化实训:标签类目体系方法论》实训营主讲老师,也是爆款书《数据中台:让数据用起来》的作者。曾任阿里数据产品专家,基于实践抽象出数据资产化方法论,擅长对复杂业务场景数据抽象和数据应用建模。目前已获有数据类目体系专利、撰写的《面向业务的数据资产建设方法论: 标签类目体系》一文被国内核心科技期刊《华东师范大学学报(自然科学版)》刊登发表。

以下内容为影姿分享内容整理而成:

哈喽,大家好,我是影姿,今天我给大家带来的是一种面向业务侧的数据资产建设新方法,叫标签类目体系方法论数据资产是数据中台概念中核心一环,需要一种业务导向的资产映射,来完成资产业务化过程。标签类目体系方法论是一种将数据资产按照树状结构组织的方法,根目录为对象,枝干分支为类目,叶/花末端为标签。各种对象树之间存在能量连接,并通过业务供给生长。标签类目体系实例化可以采用整体规划、局部截取两种模式。资产结果分为资产清单和资产实体两大部分,它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果,以实现数据资产价值。在数据中台概念中,数据资产位于核心位置。首先要对数据资产定义有正确的认知:广义上,企业拥有所有权的数据资源都是其数据资产。但是这个广义定义过于宽泛:所有资源都有价值等于所有资源都没有价值。因此需要更多关注其精准定义:企业所拥有的的能够带来经济价值的数据资源。数据资产一般都有较好的组织形式来保障完成“看、选、用、治、评”的经济价值链路。对数据资产的最佳“组织形式”研究成为数据中台建设的重中之重。大数据行业内至今衍生出了众多的数据资产建设管理办法。但是当前主流方法,包括国际数据管理协会DAMA、数据仓库管理、数据治理等都较多偏向于底层技术实现,而非上层业务应用角度对资产进行整合优化。数据资产之所以称之为资产,必须从价值出发,整理、管理、优化对业务真正有帮助,能给企业带来效益的数据资源。把数据资源封装成业务人员能理解的形态,是后续资产价值化的必要前提。因此迫切需要一种新的思路,研究面向业务侧的数据资产建设办法。

01

标签类目体系的基础结构

标签类目体系方法论是一种面向业务的数据资产建设办法:用“标签”来作为数据资产的最小单元组织载体,用“标签类目体系”作为数据资产目录的整体组织结构载体。图1 标签类目体系的树状结构Fig. 1  The tree structure of Feature Hierarchies如图1所示,标签类目体系的基础结构就像一棵树,树的根决定了这是一颗什么树。设计、管理、使用标签类目体系必须从根目录开始。根目录所对应的数据含义为对象,对象分两大类型:实体对象(人、物)和关系对象(强关系、弱关系),因此存在两大类标签类目树类型:实体树和关系树。然后是树的枝干分支,树的枝干部分对应于标签类目体系中的类目分层,因此类目是一种分形结构,可以不断的分化下去,也可以根据需要截取任何一个子系统出来作为独立的标签体系,也就是小系统范围来使用。树的叶/花部分,对应的就是对象的各种属性,即标签,物理存储中映射为字段粒度,是通过大量经验验证后最合适的数据资产最小单元粒度。叶和花都属于枝干延伸的末端组织分化,相互之间存在联系。标签也可以分为动态标签和静态标签,动静区分点在于某个个体在这个标签下的标签取值是否具有会经常发生变化的可能。图2 标签类目体系对不同个体的快速刻画Fig. 2  The quick portrayal of different individuals through Feature Hierarchies某一类对象的标签类目体系的构建实际上完成了对某一类对象的模式设计。设计好的标签类目体系就像模具一样,能将该类对象下的具体个体形象特征,快速标准的刻画出来。例如消费者标签类目体系设计好后,所有的消费者都拥有相同的标签及标签类目结构。但具有不同的标签取值,如图2所示,每个个体不同的标签取值,用颜色来示意区分不同的标签取值。通过标签体系设计,可以把个体观察升级为群体观察;找到了一种统一的数据描述办法来对对象进行本质刻画,而非过去现象的总结,更具有场景化适应能力。

02

标签体系链接赋能

标签类目体系是基于“对象”的标签分类刻画,“对象”是类目体系的奇点。对象分两大类型:实体对象,也就是我们经常说的人、物,和关系对象,像强关系、弱关系,因此可以认为有两大类标签类目树:实体树和关系树。这两种树之间,由三点链接。第一,实体树间通过关系树连接,例如消费者(实体)与商品(实体)之间会通过某些浏览、交易、评价等行为(关系)产生连接,通过这种连接,消费者(实体)与商品(实体)除了静态标签之外,还衍生出了许多动态标签,实体对象360度的全面刻画变得更为丰富和完整,如图3所示。图3 消费者实体树与商品实体树通过交易关系树发生连接Fig. 3  The consumer entity tree and commodity entity tree are connected through the transaction relation tree第二,关系树是一种能量赋予。实体对象身上的标签,会随着关系对象的增多,而相应的增多丰富。每新增一种动作、行为、连接,即关系树,就会在实体树上映射出一片新类型的叶子,如图4所示。图4关系树对实体树进行能量赋予Fig. 4  The relation trees provide energy to the entity tree实体树要想长出足够多类型的叶/花,需要通过关系树的能量映射。关系树自身越茂盛,能映射孵化出的实体树叶/花也会越繁多;反之关系树自身枯萎、能量不足,则会影响实体树的叶/花也会随之枯萎消失。第三,业务使用是养分供给。标签如果在业务中被广泛使用则生长非常牢固,得到了业务的重视获得更多资源倾斜;而某些标签如果只被使用一次即搁置,则会因为营养不足而凋零下架。那么如何让这棵树生长优化呢?经典标签类目体系的完整结构是一棵可以不断分形下去的树形结构。因此可以通过不断的增加、修剪、插枝等方式来完善。类目树就像生命进化树一样,类目分支受到能量环境影响而形成丰富的标签簇,标签会经历优胜略汰自然选择。整个类目树需要自己生长出来,而非人为控制得到最终形态。最终的类目树形态是适应环境自然生长的结果,但是不意味着不能提前规划一个较好的类目树初始形态。通过在实验室环境中将植被进行理想的扦插塑形,可以使得树木在真实环境中更好的生长。因此当一家企业需要构建其自身的标签类目体系时,可以基于一个已沉淀好的XX行业某对象标签类目体系模板,进行快速的规划设计和修正优化。根据建设数据资产的目的节奏不同,有下述的两种模式可以参考借鉴。第一种模式:完整规划,从浅入深。当企业构建资产目的是为了形成数据资产的完整规划,指导数据收集、整理、加工、挖掘等各阶段工作,并愿意花费较长时间来实施数据资产的整体规划时可以选用这种模式:1)首先选取蓝色圈内主要枝干体系,添加少量标签并完成数据开发和映射工作,形成V1.0版本的消费者标签类目体系,如图5所示。图5  V1.0版本的消费者标签类目体系结构Fig. 5  Version 1.0 of Consumer Feature Hierarchy2)再根据企业现有数据情况及业务需求,进行黄圈、绿圈……的全面扩展,此时类目树上挂有的标签越来越丰富,如图6所示。图6  逐渐完善的消费者标签类目体系结构Fig. 6  The gradually improved Consumer Feature Hierarchy3)当现有基础数据/业务比较单一,或某一业务发展迅速滋养某一类型的标签快速发展,也可能会出现红圈式的指向性单侧扩展,如图7所示。图7  单侧扩展的消费者标签类目体系结构Fig. 7  The unilaterally expanded Consumer Feature Hierarchy不管以上哪种具体实施方法,都是从根部最基础树干到分支再到细支,体现了一种整体规划的完整思路。这种模式的好处是全面规划,面向未来,可以指导企业在数据端的全面布局;缺点是建设周期长,见效慢,因此会遇到的阻力也会很大,必须是一把手工程才能完成全面的数据资产从规划到落地实施。第二种模式:纵深打穿,从局部直接截取。当企业构建资产目的是为了完成对业务场景的支撑,特别是多个业务场景间能快速复用标签资产,希望可以快速见到数据对业务产生的商业价值时可以选用下述的这种模式。图8  截取的特征分支Fig. 8  The intercepted feature branches直接从经典完整的对象类目树上截取所需的部分分支即可。因为标签类目体系是一种分形结构,整体和局部有同构性,任何一个局部分支都可以剪切出来作为独立的类目树。例如当前某业务部门只需要研究用户的基础特征,则可以直接从经典类目树上截取左上角的基础特征分支,作为独立的类目树,如图8圈中所示。此时该用户的一级类目就是基础特征,直接跳过“静态特征”和“动态特征”这两个更基础类目。这种模式的好处是:标签直接作用于业务,可以快速的得到业务滋养并得到数据价值的认可,阻力会小;但是缺点是:当业务、标签不断生长变化时,整个类目结构可能会有较大的变动,甚至重构,带来的影响较大。一棵标签类目树的优化过程可以参考生物进化论,是通过遗传变异+自然选择的结果。企业构建具有其自身特点的类目树,在初始创建时,可以遗传自经典类目树的基因组:从经典类目树结构中中筛选出合适的类目结构进行设计组装(遗传);并根据企业自身实际情况的不同,进行变异调整(变异);将设计好的具体类目树,放到实践业务中去使用优化,完成环境选择的过程(自然选择);并最终不断的进化迭代。在进化过程中,重要的不是对某一条线的极致进化,重要的是不断分化的分支。因此对于数字化转型的企业,面对未来变化莫测的环境场景时,需要做的不是在某个单一领域上将数据治理透彻。因为极致和典型态,未必就是方向和出路。而应该梳理出全集团多业态多部门数据,不断的能量影响、基因交叉,形成丰富有趣的标签簇,使其能够适应将来各种场景对数据标签的使用需求,同时自身具有非常旺盛的生命力和延续性。通过标签类目方法论所形成的企业数据资产库包括资产清单资产实体两部分组成。资产清单类似资产门户,可以在门户集市中,清晰明了的看到企业中一共构建了哪些对象的标签类目体系,并在选中某种树后,可以看到这种树的具体枝干轮廓:一级类目、二级类目、三级类目……选中某级类目后,可以看到其下所涵盖的标签列表,如图9所示。图9  资产清单示意图Fig. 9  The diagram of an asset inventory每个标签就像每一片不同的叶子一样,拥有自己的ID、名称、逻辑、类型、值字典等元标签信息,元标签就是对标签的属性描述。例如百科全书要让读者对某一事物有充分全面的正确认识,则必须要有充分全面的信息描述,并且以通俗易懂的描述方式。因此标签是否能让业务人员、信息人员、技术人员等理解认知,重点就在于元标签信息是否充足及描述是否符合读者心理认知。元标签中涉及业务元标签部分的,应该以业务人员日常沟通交流的方式来进行描述,例如标签名、标签业务逻辑、标签场景示例、标签价值等都属于业务元标签范畴;涉及技术元标签部分的,应该以技术人员日常工作沟通的方式来进行刻画,例如标签血缘、标签质量、标签加工逻辑、标签源表、标签物理存储方式、标签映射字段、标签所在叶子类目ID等都属于技术元标签范畴。资产实体指在设计好的标签类目体系规范下,每个具体个体实例。实例可以简单认为是具体不同颜色的树,因此在实体库中,会存在非常多的颜色各异但是轮廓形状相同的树所组成的树林,如图10所示。在物理存储层面可以映射为加工后的数据表中每一条具体的数据记录,这些数据记录拥有统一、相同的列信息,但是具体的列取值各不相同。图10  资产实体库示意图Fig. 10  The diagram of an asset entity library

03

标签体系如何落地实用

数据资产构建完成后,需要把资产合理高效的使用起来。举例最常见的三种数据服务方式:查询、分析、圈选,来解释经标签类目体系梳理后的数据资产是如何快速实现这三种数据服务过程。一,查询服务查询服务经常会运用在业务系统中OLTP(On-Line Transaction Processing 联机事务处理)[5]事务型数据操作中,例如在海量数据中快速查找某辆汽车的违章信息,或在营销活动中实时判断某位消费者是否达到准入门槛或完成活动任务。因此首先需要先确定需要查找的对象是什么,是车辆、消费者或是订单记录。选中对象(即某种树),例如“消费者”后,可以在服务管理中选中“查询”这种服务类型,进入到“消费者查询”服务的创建过程中。查询服务有几个配置项必须选择:查询输入项的ID标签和查询输出项的标签。其中ID标签指的是能作为唯一识别属性的标签,即每个实例在该标签下的标签值都不相同,不允许出现标签取值相同的两个不同个体,例如会员号、身份证号、驾照号、指纹图形等都属于ID标签。例如,我们可以选择【会员号】标签作为输入项,【户籍地】标签作为输出项。查询服务创建好后生成API接口或交互界面,具体业务系统或业务人员即可调用或通过界面系统操作使用该服务:输入一个具体的会员号码1000234,后台系统即可通过该ID标签取值,在资产实体库中找到唯一对应的个体实例,并根据所需要输出的标签信息,定位到该个体在【户籍地】标签上的具体取值:浙江,并将该取值传递到接口输出或通过界面呈现,如图11所示。图11  查询服务过程示意Fig. 11  The process of the query service二,分析服务,分析服务经常会运用在业务系统中OLAP(On-Line Analytical Processing 联机分析处理)分析型数据操作中,例如对消费者群体进行客户透视画像[7],或对企业经营状况进行财务分析等。和资产构建过程一样,对象的确认仍然是第一位的。分析也要先梳理清楚分析的对象是什么。客户画像的对象比较单一,就是客户;企业财务报表的对象比较多,有资产、订单、项目、商品等。选中对象(即某种树),例如“消费者”后,可以在服务管理中选中“分析”这种服务类型,进入到“消费者分析”服务的创建过程中。分析服务有几个配置项可以选择:待分析的维度(即标签)及分析类型(求和、求平均、最大值、最小值、取值分布等)。例如,我们可以选择【性别】这一维度并设置“取值分布”这一分析类型。分析服务创建好后生成API接口或交互界面,具体业务系统或业务人员即可调用或通过界面系统操作使用该服务。后台系统根据“消费者”对象的确认,找到消费者对象库中的所有具体实例树(具体消费者个体);根据【性别】标签的类目信息索引找到所有实例树中 “性别”树叶位置;将所有的有颜色的“性别取值”树叶提出排列好,根据“取值分布”的要求对不同颜色的树叶进行颜色归类并分类汇总计算,最终业务人员可以在API接口或界面系统中查看到消费者在性别上的取值分布图,如图12所示。图12  分析服务过程示意Fig. 12  The process of the analysis service从以上的处理过程中,我们可以发现,数据分析就是对某一对象群体在某一属性标签上的取值处理,即对有颜色树叶在某一维度切面上的不同变形,取值分布就是将颜色分布变形为不同数据轴上的数量表示,求平均就是将各种颜色在数量上差异变形为最终的调合色彩。处理数据的最终结果和数据资产不同,是数据资产实体在不同维度切面上的变形结果。三,圈选服务,圈选服务经常会运用在需要对特定目标对象的操作中,例如广告系统中的精准营销,或LBS服务中的地理围栏,或数据化运营中的定向投放等。同样需要先确认对象之后,例如“消费者”,可以在服务管理中选中“圈选”这种服务类型,进入到“消费者圈选”服务的创建过程中,选择需要作为圈选条件的标签,并设置圈选中的目标群体输出时需要带有的标签信息。例如,选择【性别】、【年龄】等标签作为目标群体圈选的条件维度,设置【会员号】标签作为目标群体的输出信息项。圈选服务创建好后生成API接口或交互界面,具体业务系统或业务人员即可调用或通过界面系统操作使用该服务,如选择【性别】等于“女”且【年龄】小于“30”的消费者群体。后台系统根据“消费者”对象的确认,找到消费者对象库中的所有具体实例树(具体消费者个体);根据【性别】标签的类目信息索引找到所有实例树中 “性别”树叶位置,筛选留下“性别”树叶具体取值为“女”的实例树集合;同样操作筛选留下“年龄”树叶取值小于“30”的实例树集合;将以上两个实例树集合取交集(业务人员制定规则为“且”);对最终交集中的每个个体树上找出【会员号】标签上的具体取值;并将该取值集合传递到接口输出或通过界面呈现,如图13所示。图13  圈选服务过程示意Fig. 13  The diagram of the filtering service 最后,本文给出了一种面向业务,以数据价值实现为核心目标导向的数据资产建设方法论,它具有以下三个特征:1. 是一种桥接数据和业务的中间逻辑层,让数据变得可阅读易理解。2. 是一种统一的对象数据描述办法,把个体刻画升级为群体刻画,研究本质。3. 是一种构建数据资产的第一性原理,通过学习方法论+演绎推导即可构建具体的企业资产。通过标签类目体系方法构建的数据资产,可以将难以理解的数据信息转化为业务人员“看-选-用-治-评”的资产操作对象,降低了数据资产使用门槛,加快了试错和使用频率,能够切实有效的保障数据资产价值真正在业务端得到实现,并保持长久运营的生命力。

CIO创享群简介

【CIO创享群】是数澜专为CIO量身定制的线上高端闭门分享群,旨在帮助CIO及IT高管了 解行业前沿资讯、探讨业务与科技融合的重要趋势,提供行业科技化创新思路。社群每周四晚8点会有一次信息化总监级别的中高管在社群做数据中台、数据智能等主题分享,形式为图文直播,其余时间不定期发布行业前沿动态、行业白皮书等行业资料供大家学习参考。目前群内已有雪松控股、碧桂园、贝壳找房、富力集团、珠光地产、广州城市规划设计院、中海、佳兆业、时代中国、深业科技等地产行业的重量级嘉宾。


添加“小澜”

影姿老师【标签体系价值微课】

限时19.9元等你领取!

【欢迎CIO和信息化决策者添加小澜入群】

来都来了,记得给小澜点个赞和在看

大数据 客户标签体系_CIO创享任寅姿:面向业务的数据资产建设方法论——标签类目体系...相关推荐

  1. 大咖分享|李志强:一文详解标签类目体系落地方法与建设价值

    讲师介绍 李志强(莫奈),数澜科技资深数据专家,近10年大数据行业工作经验,先后参与过某大型股份制银行信用卡营销平台建设.时尚集团数据化平台建设项目.长虹数据中台项目等大型集团公司数字化项目,擅长企业 ...

  2. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记8(完结)

    第8章 果:价值.经验分享 1.7点价值总结 采用标签方法论形成的数据资产,较传统方式开发的数据指标,具有更高的应用价值与影响意义.标签价值主要体现在:串联.业务友好.全息刻画.可复用.可运营.创新场 ...

  3. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记2

    第2章 源:6段由来过程 一.数据资产发展的4个阶段 1.1 数据资产1.0:构建消费者信息库 1.1.1 数据侧与业务侧的初次接触 数据侧为业务侧打造的第一个数据解决方案一定要成功,必须在首次合作中 ...

  4. 《标签类目体系-面向业务的数据资产设计方法论》 读书随记

    <标签类目体系-面向业务的数据资产设计方法论> 读书随机 第一章 因 6大数据困局 1.数据孤岛,无法打通 2.烟囱式建设,重复造轮子 3.各说各话,没有统一口径 4.鸡同鸭讲,无法穿透业 ...

  5. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记6

    第6章 术:使用技法与重要问题 1.标签规范 数据必须转化成能解决业务问题.提升业务效率的标签才具有价值,否则就是数据负累.将数据提炼转化为标签的过程称为"标签化",标签化需要充分 ...

  6. 标签类目体系的价值与意义

    在标签类目体系方法论对外推广实践的过程中,经常会遇到客户提问:为什么需要学习标签类目体系?原有的数仓架构或指标体系是不是也能解决相关问题?对标签类目体系的价值进行总结提炼,主要体现在以下三点: 1 数 ...

  7. 零售行业标签类目体系

    背景 D电商是一家零售电子商务公司,布局了集线上交易.线下物流.金融.社区于一体的生态链路,拥有该细分行业内领先的全品类一站式交易平台. 近年来电商主营业务发展进入瓶颈期,固定的商品展现模式已不能满足 ...

  8. 淘宝的商品中心和类目体系是怎么设计的 | 极客分享第 16 期

    什么是"极客分享每周精选" "极客分享"是一个书签分享的网站(hackershare.dev),"每周精选"是该网站汇总精选书签的一个栏目. ...

  9. 华为fusionsphere整体架构及其各组件功能_华为数据之道:面向业务的信息架构建设...

    华为的数字化转型已经成为行业公认的标杆,最近的畅销书<华为数据之道>对华为的数字化转型方法和经验进行了系统性地披露.企业的数字化转型,最重要的是数据治理,其次是信息架构的建设,本文将通过& ...

  10. 华为数据之道(3):面向业务的信息架构建设

    注:微信公众号不按照时间排序,请关注"亨利笔记",并加星标以置顶,以免错过更新. 新书消息: 秋天里的第一本云原生巨著:<Harbor权威指南> 我们云原生实验室从事着 ...

最新文章

  1. 硬核!一套基于SpringBoot + Vue 的开源物联网智能家居系统!
  2. Matplotlib(二)绘图生命周期
  3. linux 标准 GPIO 操作
  4. Eclipse和Intel idea的常用技巧
  5. tcpdump显示udp包_TCPdump抓包命令详解
  6. C++11 线程对象创建后既不join()也不detach()的后果
  7. Go新手上路(时不时更新)
  8. nginx 反向代理及负载均衡
  9. 【SAS NOTES】数据输出-proc export
  10. Java中过滤器与拦截器
  11. 安信可云服务器,4g dtu测试,利用安信可进行透传测试
  12. 技术管理必备之沟通机制
  13. 计算机网络安全技术实践总结,网络安全实训总结.doc
  14. java宠物商店管理系统_Java实现宠物商店管理系统
  15. android 放大缩小命令,Android TV开发中常用命令
  16. 静态网页之--小说阅读网
  17. hive时金额为科学记数法转为普通的数字
  18. HR面试程序员,背调其前同事发现他人品差:能力和人品哪个重要?
  19. 达人评测 i5-1155g7和i5-1235u选哪个 i51155g7和1235u差距
  20. 美团点评暑期实习个人总结

热门文章

  1. oracle srvctl命令,关闭RAC、srvctl命令
  2. php无限分类排序,重新研究这个问题:php无限分类的子分类如何再排序
  3. python3.7安装opencv4.1_VS2019+python3.7+opencv4.1+tensorflow1.13配置详解
  4. turtle fillcolor_Python编程:使用海龟turtle画图制作可爱的哆啦A梦,你也可以的。
  5. jquery name选择器_jQuery学习(1)
  6. python快速排序时间复杂度-快速排序python实现总结
  7. android 动态创建数据库表,简析Android数据库中创建表与LitePal的基本用法
  8. java rni_Java面试总结
  9. LESS+to+MCSS
  10. Ubuntu16.04安装truffle时的一些错误