▐ 前言

在【阿里妈妈数据科学系列】前四期内容中,我们介绍了 AB TEST 的基础知识与框架及每个部分的方法论与技术,本期我们主要介绍实验指标设定方法与指标体系构建。

指标体系构建在 AB Test 中是不可或缺的重要环节,量化的指标体系是衡量一个 AB Test 实验成功与否、能否扩量以及是否达到预期必不可少的条件,同时,一套科学的指标体系可以在抽样环节和同质性角度对实验组的可信度起到巨大的帮助。

▐ 实验评价指标设计

针对一个实验,如何设计评价指标来评估监控?一个关键点是从实验的目的去自顶向下设计指标,例如高层次的指标可以是用户活跃率和采纳率,在这个顶点上,需要向下定义什么算用户活跃?什么又算完成采纳?依照这个逻辑给到每一个关注指标一个明确的定义。同时,可以将一系列的指标进行聚合,通过构造一个目标函数或者简单的加权指标,组成一个单一指标,例如总体评价指标(OEC)。最后在指标设计中,还需要考虑指标的普适性有多少,如果你在运用 AB Test 测试,那么最好能有一个指标能够贯穿整个体系。

指标特性

  1. 敏感性:敏感性是指指标对所关系的事物是否足够敏感。

  2. 鲁棒性:鲁棒性性是指对不关心的事物是否足够不敏感。

  3. 指标分布:通过对指标的历史数据的分析得到指标分布,反映指标的分布特征和结构状况,有助于进一步研究指标的构成、平均水平及其变动规律。

敏感性和鲁棒性都可以通过预先小规模实验,来验证指标是否符合直觉。另一个方法是使用 A/A 测试,也就是什么都不改变,以此来排除一些伪关系。

▐ 指标分类及选取

指标分类

AB Test 测试的指标通常可以分为核心指标、质量指标以及观测指标。1. 核心指标通常是指比较敏感的,有很强的可操作性,同时能够受实验干预措施带来较为直接的影响,主要用来决定实验是否成功的指标。例如人均消耗、点击率、转化率、人均使用时长等,其特性包括可归因性,可测量性,在实验干预前,通常采用A/A测试来测量鲁棒性,用回溯性分析来测量敏感性;2. 质量指标在AB Test中起到的是兜底作用,通常是作为一个约束底线而存在,帮助我们戒备核心指标给予错误信号的情况,能够帮助实验更好的确定是否需要继续进行或扩量;3. 观测指标在实验中起到辅助作用,可以更好的观测实验带来的一些其余方向的影响。这三类指标共同构建了AB Test的指标体系。

如何选取核心指标

首先要清楚业务或产品所处的阶段,根据这个阶段的目标来确定核心指标。例如,在业务或产品的起步阶段,目标更多的侧重于增加用户使用,其核心指标更应该集中在使用率、点击率、转化率等指标;而在业务产品的成熟及稳定期,此时业务目标逐渐转向的是产品收益、用户的使用留存情况,核心指标则应该重点关注在ROI、留存率、使用频次、停留时长等。同时,核心指标的个数不宜太多,一般不超过三个。通过观察成功指标的差别,我们可以决定是否接受产品的改动 核心指标的是否成功必须是能在短时间内被验证,并能够指示长期影响的指标。例如,如果业务的期望是为了提升平台用户粘性,日活率是一个好的核心指标,通过数据可以快速的知道平台有多少登录用户,其中又有多少有活跃动作,但是30天留存率就不是一个很好的核心指标,因为必须等待至少30天才能知道用户是否还在该产品上继续活跃,虽然日活率和长期留存率都衡量了长期商业的影响,但由于滞后性,长期留存率并不能拿来作为核心指标。但核心指标的成功度量并不需要直接测量长期商业影响,间接指示也可以,例如:Netflix 就利用用户观看时长作为用户增长的成功指标,他们的收入与订阅用户数量直接相关,由于 Netflix 提供包月业务,大部分取消业务的用户都会选在续费前取消,这就造成了订阅用户数量会存在一个月的间隔,刚开始的 AB Test 测试需要至少一个月才能知道成效。而且,Netflix 也不希望用户退订,他们希望知道用户是否已经开始不满意产品的变动,并及时做出决策,所以通过相关性分析,Netflix 发现用户每周观看时间和留存率有很大的相关性,因此,每周观看时间也能作为核心指标,因为它间接并且快速的指示长期的商业影响。

如何选取质量指标

质量指标可以是产品的性能指标。例如测试新的搜索引擎,一般也会对搜索引擎的性能进行衡量,如:多少搜索成功完成,平均耗时多少?虽然这些度量并不完全决定是否发布新的搜索引擎,但是如果我们发现它的表现非常差,即使核心指标(搜索相关性)有些许的提高,往往也不会发布新的产品。它也可以是产品不直接影响的商业价值指标,例如在做用户增长实验时,也可以将用户体验作为质量指标,虽然大部分的新产品和新功能都不应该影响用户体验,但是将它们加入质量指标可以对实验结果更有信心。

如何选取观测指标

观测指标可以从两个角度来挖掘,一方面是用来帮助我们理解核心指标为什么改变的指标,举例而言,如果想测试广告是否有效,一个很直接的核心指标就是广告的点击率,但通过对于点击率的分析,我们能够更深刻的了解到广告利润是如何来的,以及如何设计新的广告形式或者广告内容,这是观测指标可以包括广告的曝光和点击,这些指标可以更好的帮助我们理解点击率的变化发生在了哪一块。另一方面观测指标用来帮助我们监测一些其余视角的得失,同样以广告为例,除了核心的点击率,用户的15日留存这个指标可以从侧面反映广告机制的优化是否会对用户造成反感等。

▐ 综合评价指标(OEC)指标构建

根据上述内容我们得出,一个好的 AB Test 囊括的合理的核心指标、质量指标及观测指标,在这个背景下,可以发现一个实验可能同时需要监测大量的指标,一个很容易的矛盾点便产生了,我们如何衡量这个实验是否成功?如果核心指标提升但质量指标下降,我们又如何权衡这两者之间的得失、判断是否需要推全?观测指标对于实验的结论又有多大的帮助性?这些问题导致了我们在实验之后有时难以做出下一步的决定,这时除了基于经验以外,构建一个综合评价指数(OEC)便是解决这个问题的一个方法,那么如何构建一个OEC指标呢。

  1. 良好的指标体系。我们知道不同的业务目的我们观测的指标各不相同,例如对于广告平台来说,提升收益的项目更关注的是广告主的消耗,提升留存的项目更加关注的是广告主的留存率等。此时,便需要对业务进行划分,针对不同类型的业务,定义一套标准的指标体系,包括该业务场景下的核心指标、质量指标和观测指标。

  2. 对指标进行处理,包括正向化和无量纲化。a)正向化:指标一般分为正向指标(越大越好)、逆向指标(越小越好)、适度指标(不能太小也不能太大)。为了可以进行综合汇总,需要解决同方向性,一般需要将逆向指标和适度指标正向化。逆向指标正向化的方法可选择的方法包括倒数法,最小阈值法、最大阈值法。适度指标正向化包括绝对值倒数法和距离倒数法。具体方法不在此进行介绍。b)无量纲化:指标的无量纲化可以消除指标间量级不同的影响,可以使各个指标转化成可以直接加减的的数值,常用的消除定量指标无量纲化的方式如下。常用的方法包括阈值比较法、中心化、规格化、标准化、比重法。具体方法不在此进行介绍。

  3. 设置各指标的权重,权重的设置是否合理对于构建 OEC 至关重要,但什么样的权重算作合理?对此,通常来说需要将主观赋权法与客观赋权法相结合。a)主观赋权法:又分为专家赋权法和层次分析法(AHP),这两种方法都更多的依赖长期的经验及主观认知 b)客观赋权法:基本思想是利用各指标间的相互关系或提供的信息量来确定权重,实际实现是通过对原始数据经过数学公式上的处理获取权重,原始数据所包含的信息包括两种,一种是指标变异程度上的信息差异,一般通过指标的标准差或变异系数来反映,一种是指标间的相互影响程度,这种信息一般隐含在指标见相关关系矩阵中。常见的客观赋权的方法包括变异系数法、相关系数法、熵值法。

  4. 根据权重进行综合打分:将赋权后的多指标进行综合的方法主要有四大类:线性综合法、几何综合法、混合综合法和模型综合法,前三种方法较为简单,可以理解为加权求和、加权几何平均、线性加权与几何综合结合,而模型综合法较为复杂,通过各种复杂的函数和相关关系得到综合评价数值,同时该关系必须为描述对象间的关系清晰,可以用合适的数学表达式表述。

OEC的优点

  1. 综合了各方面的指标,可以把握 AB Test 总体的好坏。

  2. 可以避免多重检验问题。如果单独比较多个指标会出现多重检验的问题。

  3. 对于不同的业务场景可以合理规范出通用的指标体系,能够帮助同类型业务间进行横向的对比。

  4. 对于单一项目,同时也可以做到时间上的纵向对比,方便进行实验后的长期追踪。

▐ 总结

当前的互联网公司中,每天都有成百上千的 AB Test 正在进行,因此,指标的合理选择及构建一方面能够直接影响实验的成功判断,另一方面能够清晰的帮助分析师从各个视角看清实验,无论从产品的未来优化方向还是长期收益角度,良好的指标定义及构建都不容忽视。当然,科学的指标体系除了依赖数据上的输入以外,长期的经验积累也是一种手段,尤其是在 OEC 指标的构建上,从理论及实践的角度都依然有着巨大的挖掘空间。

【阿里妈妈数据科学系列】持续更新,欢迎关注!

【阿里妈妈数据科学系列】第一篇:认识在线实验

【阿里妈妈数据科学系列】第二篇:在线分流框架下的AB Test

【阿里妈妈数据科学系列】第三篇:离线抽样框架下的AB Test

【阿里妈妈数据科学系列】第四篇:Bootstrap方法在AB TEST中的应用

END

疯狂暗示↓↓↓↓↓↓↓

【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建相关推荐

  1. 【阿里妈妈数据科学系列】第二篇:在线分流框架下的AB Test

    背景 AB Test 是为同一目标制定两个方案,在同一时间维度,保证其他条件一致的情况下,分析实验组跟对照组的区别,根据不同的实验类型以及应用场景,产生了不同分桶逻辑的AB Test,包括在线分流及离 ...

  2. 【阿里妈妈数据科学系列】第一篇:认识在线实验

    前言 在互联网业务中,"增长"是永恒的主题,但随着互联网时代的发展,野蛮增长的流量红利已逐渐消失,如何在策略效果不可见的条件下,实现有效增长是当下互联网企业的难题.面对未知的策略价 ...

  3. 【阿里妈妈数据科学系列】第三篇:离线抽样框架下的AB Test

    在 AB Test 的语境中,"离线抽样"指在实验开始之前就确定实验组和对照的抽样方式.很显然,离线抽样的对象不是实时产生的流量,相反,离线抽样框架下的 AB Test 更接近于传 ...

  4. 【阿里妈妈营销科学系列】第二篇:消费者行为分析

    ▐ 分析背景 大部分品牌或商家寻求通过海量数据来更好地了解消费者,以便打造出色的商品和体验,这个过程中会面临数据整合ETL.数据分析.数据理解等各种挑战,需要合适的分析模型来整合所有渠道的数据,全面了 ...

  5. 【阿里妈妈营销科学系列】第一篇:消费者资产分析

    ▐ 分析背景 随着互联网发展日益成熟,竞争愈发明显,流量红利逐渐收缩,商家运营阵地逐步转向消费者精细化运营.消费者精细化运营的基础是需要对消费者进行解析,对其进行分层,形成消费者资产.对分层下的资产规 ...

  6. 【阿里妈妈营销科学系列】第五篇:多渠道组合路径效率评价

    ▐ 分析背景 电商的归因分析多数以last_click为基准,成交转化都会归功于用户完成转化前的最近的一个广告系列,但是在此之前,用户所经历的其他触点如搜索广告.banner曝光.社交广告.信息流对转 ...

  7. 【阿里妈妈营销科学系列】第八篇:增强分析在营销分析场景下的实现和应用...

    丨目录: · 背景 · 业务场景 · 基本概念 · 阿里妈妈智能洞察系统Autolnsight · 应用场景和案例 · 总结 · 关于我们 ▐ 背景 随着以数据驱动业务增长的发展趋势,"数据 ...

  8. 【阿里妈妈营销科学系列】第七篇:目标群组发现

    丨目录: · 分析背景 · 基本概念 · 解决方案 · 方案流程 · 案例参考 · 关于我们 ▐ 分析背景 在行业运营的场景中,我们需要针对业务目标,从"人-货-场-店" 角度去进 ...

  9. 【阿里妈妈营销科学系列】第六篇:营销组合模型MMM

    丨目录: 1.  分析背景 2.  分析场景 3.  解决方案 4.  案例应用 ▐ 分析背景 媒体类型和销售渠道不断变化,客户旅程变得越来越复杂,单一活动层面的优化已经不能满足客户诉求,品牌方需要在 ...

最新文章

  1. getparameter java_java中getAttribute与getParameter方法的区别
  2. 苹果自动驾驶部门「裁员」又「重组」,AI负责人接掌「泰坦」
  3. 若谷歌实用量子计算机难产,拉里·佩奇会把它砍掉吗?
  4. OpenSSL 再爆严重安全漏洞 —— CCS 注入
  5. C# XML的序列化与反序列化
  6. 在SAP Cloud Platform上消费Business partner service遇到的错误
  7. 第三次Sprint-最后冲刺
  8. C基础(36——40)
  9. mysql replication 原理_MySQL Replication(复制)基本原理 | 学步园
  10. 维刻柠檬鲜果冰怎么样?
  11. AD高级培训PPT总结
  12. 在Mac上安装和配置Tunnelblick工具
  13. 荧光染料Alexa Fluor 647 alkyne/炔基炔烃
  14. Java地位被撼动?Java与JavaScript的趣事连载
  15. 银行客户流失预警模型——业务分析及代码(实战)
  16. Hexo系列 | Hexo安装、启动
  17. NC发布webservice接口
  18. 程序员用Python分析徐峥,竟研究出《我不是药神》30亿票房真正秘诀!
  19. python 双色球 输出到txt_python3 - 写一个生成双色球号码的一个程序,生成的号码写到文件里面...
  20. 互联网的主流与非主流

热门文章

  1. IOS开发基础之使用Xcode12.3连线storyboard与属性
  2. centos7磁盘逻辑分区命令_Centos7 磁盘分区概念
  3. python正则匹配日期2019-03-11_都2019年了,正则表达式为啥还是这么难?这里的Python学习教程教你搞定!...
  4. esp8266 接收udp广播_ESP8266_21基于ESP8266的一键配网
  5. 二维数组按行排序C语言,二维数组对每一行进行排序。。
  6. Ajax Get请求获取后台返回的数据
  7. NSURLSessionDataTask与NSOperationQueue实现多文件断点下载(任意时刻终止进程,重启应用,自动重启下载)...
  8. 三十六、rsync通过服务同步、Linux系统日志、screen工具
  9. is not in the sudoers file 解决(转)
  10. myqsl cluster error code 2310