数仓数据指标和标签体系区别
先看一个通俗的例子:
比如我们要介绍陈老师,可以有三种讲法:
指标:陈老师身高180cm,体重200斤
标签:陈老师1米8,大胖子
标签:陈老师啊,黑旋风李逵听说不?
这就是标签和指标的直观区别。数据指标,是用数据对事物的准确描述。比如身高、体重、腰围、手臂长度,这些都是数据指标。标签,则是基于原始数据加工的,带了业务含义的概括性描述。一个“大胖子”,就同时概括了身高和体重,而“长得跟李逵似的”,更是把五官、身材、气质等特征都概括进来了。
指标 VS 标签
显然,对比起来,用数据指标描述事物,会更精确。但标签也是同样重要的。因为除了“精准”以外,人们还有更多的需求。
首先,并非所有特征都能用一个数据指标来描述。常见的指标,一般是连续变量(比如身高183cm)或者定序变量(风险等级ABCDE)。还有大量的特征,是以分类变量的形式存在。比如商品规格(50ml一瓶)、颜色(赤橙黄绿)、用途(比如:居家保健、外出防护……)这些商品特征,一般是以标签的形式进行描述,这也是“标签”这个词最早的来源。
其次,标签是有业务含义的。比如光说两个指标:身高183、体重200斤,人听了也没啥感觉,但一旦加上标签:身高183+体重200,很魁梧/身高183+体重200,大胖子。是不是脑海里立马有画面感了。
最后,标签更容易被业务使用。介绍对象,说“我介绍个小萝莉给你”,远比“我介绍一个身高153体重85的女生给你”,更容易促成下一步行动。这就是标签的魅力。
所以,标签体系的建设是非常重要的,不但能丰富数据分析的素材,更能直接推动分析成果落地。
标签有哪些
标签有四类
1、基础特征标签
2、规则计算标签
3、综合计算标签
4、模型预测标签
四类介绍如下
相当多的企业,没有系统做过标签梳理,有大量的散乱的基础特征标签。有些业务部门自己会习惯性提规则/综合计算的标签,但是没有和其他部门共识过,导致通用性差。这些都制约了标签发挥作用。
那如果做得好的话,标签能发挥啥作用呢?
典型的标签使用场景
一:查询信息。这是最普遍的场景了。大量的一线工作人员会有需求,比如客服、销售、售后、文案编辑,能通过标签,快速查到对应的商品、客户、活动等信息,提高工作效率。而且查询用的标签不需要很复杂,基础特征标签即可。
二:分析素材。比如做漏斗分析,看到A渠道比B渠道转化好,可怎么解释呢?这时候可以引入一系列标签。比如
渠道标签:公域、大众私域、垂直私域
文案标签:产品知识、优惠信息、个人分享
商品标签:流量款、爆款、利润款、
优惠标签:优惠力度大、中、小
有了这些标签,在解读“为什么转化率高”问题的时候,就多了很多分析线索。通过分类对比,追踪,测试,能看出来哪种标签组合下转化率最高。比单纯看转化率、每个页面UV这些数据好用得多。
另:很多toB类分析做得很肤浅,就是因为标签收集得太少。对客户情况、谈判情况、交付过程一无所知,只知道:客户还没签约,客户签约都仨月了还没打款。这当然分析不下去了
三:策略制定。制定策略时,经常有固定的目标客户、目标商品、目标渠道。比如客户问题上,沉睡用户激活、流失用户挽留、风险用户管理,就是常见的固定主题。这时候,使用固定的标签,比如风险等级ABCDE,远比每次都临时取数拿规则省事。而且,可以通过算法模型加持,不断提升标签准确性。这是标签的高级应用了。
高级应用,需要综合计算、模型计算类复杂标签。在建设路线上,标签体系和数据指标体系有重大区别。数据指标体系建设,重在:全面。一个业务场景里,尽量多收集数据指标,数据指标越多越好。而标签体系建设,重在:有序、有效。围绕一个业务目标,尽可能多地把零散、原始描述的标签,组合成对业务有用的标签。标签在精不在多,标签质量非常重要。
如何提升标签质量
相比之数据指标,标签质量天生是个难题。因为标签是人工生产的,加入人的主观判断的。很有可能标签的描述不够准确,生产标签的数据源不能很好地表达标签的含义,从而产生误判。我们常说:“不要给人乱贴标签”,就是担心第一眼误判,干扰了对整个人的判断。
因此,标签的使用过程,与数据指标有很大区别。数据指标一旦梳理完成,除非流程更改,否则不会怎么变动。而标签在建设过程中,需要围绕同一个目标,不断地做优化,有一个明显的“提纯”的动作。
提纯是以清晰目标为前提的。比如想打一个标签:高潜力用户。如果说“我想知道哪些用户潜力高”,这就是句废话!正确的表达是:“我知道了哪些用户潜力高以后,我可以向他们投放更贵的商品组合,他们的响应率更高,我投放成本更低”。这样把使用标签场景,数据上差异表述清楚的,才是好的目标。
有了目标以后,可以从0开始做建设。在建设初期,经常只有零散的基础特征。此时可以直接用基础特特征;或者做探索性分析,看符合目标的用户有啥特点;或者干脆拍脑袋,列几条规则。总之,整出来一个初始标签规则即可,之后就可以逐步做迭代了。只要我们发现:标签的区分效果越来越明显了。
数仓数据指标和标签体系区别相关推荐
- 数据指标 VS 标签体系,到底有啥区别?
1.数据指标 VS 标签体系,到底有啥区别?终于讲清楚了 1.1.数据指标,具体数字描述(比如,他身高180cm,体重200斤). 1.2.数据标签,概括性描述(比如,他是大胖子:他是高富帅):好的标 ...
- 数据指标 VS 标签体系,到底有啥区别?终于讲清楚了。
公众号后台回复"图书",了解更多号主新书内容 作者:接地气的陈老师 来源:接地气的陈老师 网上分享数据指标体系的文章很多,但讲数据标签的文章很少.实际上,标签和指标一样,是数据分析 ...
- 数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...
- 数仓中指标-标签,维度-度量,自然键-代理键等各名词深度解析
作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊.有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系. 本文首 ...
- 【数仓】DAMA数据管理知识体系指南
[数仓]DAMA数据管理知识体系指南 金融类公司非常爱问数据治理.数据质量.元数据管理等问题. 中金公司笔试也考了 DAMA 数据治理的内容. 金融公司的开发工作较少,更多的是管理类工作 今天分享一本 ...
- 2.4 离线数仓—数据采集模块总结
离线数仓-数据采集模块总结 前言 一.数据采集模块整体架构图 二.日志数据采集 1.日志数据采集流程图 三.业务数据采集 1.业务数据采集流程图 1)全量表同步说明 2)增量表同步说明 前言 数据采集 ...
- 基于MaxCompute的数仓数据质量管理
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...
- 阿里云云原生一体化数仓 — 数据治理新能力解读
一.数据治理中心产品简介 阿里云DataWorks:一站式大数据开发与治理平台 架构大图 阿里云 DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks 与 MaxC ...
- 如何保障数仓数据质量?(建议收藏)
导读 文|傅宇康 有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理.科学地运营店铺,同时也直接提供分析决策方法供商家使用. ...
最新文章
- 调度器Quartz的简述与使用总结
- iframe悬浮在html上_HTML Iframe
- 第三方软件源_最强软件管家!要啥有啥,吊打全网~
- java 并发线程池的理解和使用
- python定时导出已发送文件_python定时发送数据库备份文件到邮箱
- SQL Server更改字段名
- 大学python教材课后答案_大学慕课2020年Python编程基础课后答案
- 博科查看光功率_易天教大家如何检测SFP光模块的光信号强弱
- Windows XP SP3英文版镜像
- vue加载中展示【nprogress(进度条)Lottie(动画)】
- java short 无符号_有符号/无符号的int,short和char
- PayPal信用卡付款401,商家不接受使用此付款类型
- 阿里云编码规范答案_令人沮丧的答案是“我如何开始学习编码?”
- opencv-python读取摄像头视频流保存为视频
- Nginx 的配置和访问控制的理论实验操作详情
- 买华为手机U8825D的体验
- 央视棒打百度的三个现象
- python简单的图片加密
- UE4 Windows下对接百度语音识别
- Couldn't register com.zyg.ios.XXX with the bootstrap server. Error: unknown error code.