在互联网行业,无论是构建搜索推荐系统,还是智能营销等场景,都是围绕用户进行不同的实验,从各项指标上观察用户对不同交互、流程、策略、算法等反馈,进而对产品、营销策略、搜索推荐算法等进行迭代改进。

在之前的文章《流量为王:收益最大化的混排机制》探讨了如何在原始的运营流量或者推荐流量中,增加广告流量、带货流量后,将不同内容类型如何呈现给不同的用户,同时根据不同的业务不同的目标导向,兼顾各方需求的混排机制,在流量为王的时代,对于实现流量的价值转化。

在本篇文章中,主要讨论在进行了模型的线下迭代并且有了提升之后,怎么线上进行实验,怎么决定对哪些用户进行新策略、算法A的尝试,对哪些用户保持原有算法B进行对照。

ABTest的概念来源于生物医学的双盲测试,双盲测试中病人被随机分成两组,在不知情的情况下分别给予安慰剂和测试用药,经过一段时间的实验后再来比较这两组病人的表现是否具有显著的差异,从而决定测试用药是否有效?

ABTest强调的是同一时间维度对相似属性分组用户的测试,时间的统一性有效的规避了因为时间、季节等因素带来的影响;而属性的相似性则使得地域、性别、年龄等等其他因素对效果统计的影响降至最低。

所有AB测试实验的奠基石是Goolge在KDD2010发表的论文《Overlapping Experiment Infrastructure More, Better, Faster Experimentation》,千禧年Google的工程师第一次将AB测试用于测试搜索结果页展示多少搜索结果更合适,虽然那次的AB测试因为搜索结果加载速度的问题失败了,但是这次的AB测试可以认为是Google的第一次AB测试。

目前业界应用最多的,是可重叠分层分桶方法。具体来说,就是将流量分成可重叠的多个层或桶。因为很多类实验从修改的实验参数到观察的产品指标都是不相关的,完全可以将实验分成互相独立的多个层。例如推荐算法召回层、推荐算法排序层、打散层,或者首页、业务页、详情页等。

模型分发(Model Distribution)

模型分发的目标是把在线流量分配给不同的实验模型,具体而言要实现三个功能:

  • 为模型迭代提供在线流量,负责线上效果收集、验证等。
  • A/B测试,确保不同模型之间流量的稳定、独立和互斥、确保效果归属唯一。
  • 确保与其他层的实验流量的正交性。

流量的定义是模型分发的一个基础问题。如何让一个流量稳定地映射到特定模型上面,流量之间是否有级别呢,这些是模型分发需要重点解决的问题,这部分在后续进行深入的讲解。

流量分桶原理

采用如下步骤将流量分配到具体模型上面去:

  • 把所有流量分成N个桶。
  • 每个具体的流量Hash到某个桶里面去。
  • 给每个模型一定的配额,也就是每个策略模型占据对应比例的流量桶。
  • 所有策略模型流量配额总和为100%。
  • 当流量和模型落到同一个桶的时候,该模型拥有该流量。

举个栗子来说,所有流量分为32个桶,A、B、C三个模型分别拥有37.5%、25%和37.5%的配额。对应的,A、B、C应该占据12、8和12个桶。为了确保模型和流量的正交性,模型和流量的Hash Key采用不同的前缀。

流量分级

每个团队的模型分级策略并不相同,这里只给出一个建议模型流量分级:

  • 基线流量。本流量用于与其他流量进行对比,以确定新模型的效果是否高于基准线,低于基准线的模型要快速下线。另外,主力流量相对基线流量的效果提升也是衡量算法团队贡献的重要指标。
  • 主力流量。主力流量只有一个,即稳定运行效果最好的流量。如果某个潜力流量长期好于其他潜力流量和主力流量,就可以考虑把这个潜力流量升级为主力流量。
  • 实验流量。该流量主要用于新实验模型。该流量大小设计要注意两点:第一不能太大而伤害线上效果;第二不能太小,流量太小会导致方差太大,不利于做正确的效果判断。
  • 潜力流量。如果实验流量在一定周期内效果比较好,可以升级到潜力流量。潜力流量主要是要解决实验流量方差大带来的问题。

做实验的过程中,需要避免新实验流量对老模型流量的冲击。流量群体对于新模型会有一定的适应期,而适应期相对于稳定期的效果一般会差一点。如果因为新实验的上线而导致整个流量群体的模型都更改了,从统计学的角度讲,模型之间的对比关系没有变化。但这可能会影响整个大盘的效果,成本很高。

为了解决这个问题,流量分桶模型优先为模型列表前面的模型分配流量,实验模型尽量放在列表尾端。这样实验模型的频繁上下线不影响主力和潜力流量的用户群体。当然当发生模型流量升级的时候,很多流量用户的服务模型都会更改。这种情况并不是问题,因为一方面我们在尝试让更多用户使用更好的模型,另一方面固定让一部分用户长期使用实验流量也是不公平的事情

在实际业务中,我们会思考一个很现实的问题,ABTest得到的结论是否可信?如果不可信,那需要多少样本才能说明一组ABTest实验是具有显著性的呢?

在适当的条件下,中心极限定理告诉我们,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布,AB测试采用双样本对照的z检验公式。显著性上,根据z检验算出p值,通常我们会用p值和0.05比较,如果p<0.05,我们认为AB没有显著差异。置信问题上,对一个概率样本的总体参数进行区间估计的样本均值范围,它展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。

从另一个角度来说,AB两个实验组之间即使有差异,也不一定能被观测出来,必须保证一定的条件才能使你能观测出统计量之间的差异;否则,结果也是不置信的。而这个条件就是开头提到的问题,样本数量问题。

那么问题来了,一次ABTest需要多少样本(用户)呢?假设AB两组实验的用户具有相同的标准差,根据公式,带入n1,同时根据假设p值和a值,推导出需要的最低用户数。

这是字节ABTest实验系统的基本原理:

  • 冷启动推荐:通过审核后,抖音会对实时在线用户进行流量分桶,每桶按照总用户量10%分配进行实验推送,第一步叫冷启动流量池曝光,比如你今天上传一个视频,通过双重审核的作品,系统将会分配给你一个初始流量池:200-300在线用户。不论你是不是大号,只要你有能力产出优质内容,就有机会跟大号竞争。
  • 标签积累:分配的视频流量再进行分配实验组,每个实验组按照5%比例分配,并为用户贴上相近标签。
  • 加权推荐:把作品送量测试给首个实验组用户,根据用户反馈的转、评、赞、完播率等计算作品基数,决定是否进行第二轮推荐及推荐力度。即播放量=A*完播率+B* 点赞率+C* 评论率+D* 转发率。
  • 加大流量推荐:达到通过推荐基数,继续把作品推送下一个分配实验组进行测试;
  • 顶流推荐:进入精品推荐池,大规模曝光,一旦进入精品推荐后,人群标签就被弱化了,几乎每个抖音用户都会刷到。
更多干货,请关注公众号:炼丹笔记

流量为王:ABTest流量分层分桶机制相关推荐

  1. ABTest流量分发和业界的一些经验

    流量为王的时代,如何精准的利用用户的流量进行分析和产品的迭代?ABTest就是其中不可缺少的一环,那么ABTest是什么呢?下面来一层一层揭开它神秘的面纱. 0.流量分发 在互联网流量的分发模式中,主 ...

  2. ABTest流量分发和业界的一些做法经验

    流量为王的时代,如何精准的利用用户的流量进行分析和产品的迭代?ABTest就是其中不可缺少的一环,那么ABTest是什么呢?下面来一层一层揭开它神秘的面纱. 0.流量分发 在互联网流量的分发模式中,主 ...

  3. 平台如何限制ip流量_ABTest 平台设计 - 如何进行流量分桶

    在 2018 年,我相信 ABTest 这个名词已经不用过多地解释了.但我发现很多公司,尤其是初创企业,虽然能理解这件事是什么,却不知道这件事该怎么做,以及该怎么做好. 这一系列文章,就是想讲清楚在设 ...

  4. 流量为王,帅掌柜刷脸支付数据化“支付”,大数据,精运营

    2019年能和猪肉价格媲美的是什么?流量. 世界仍是流量为王,流量的成本越来越贵.有统计在过去的3年时间里,整个线上新用户的获客成本增长超过3倍,线上流量竞争已然白热化.于是我们看到各大线上电商巨头纷 ...

  5. 大数据学习笔记42:Hive - 分桶表

    文章目录 一.Hive分桶表 1.分桶操作 2.分桶原理 3.注意事项 二.分桶表案例演示 1.创建数据文件courses.txt 2.将数据文件上传到HDFS的/bucket目录 3.基于/buck ...

  6. 数据库 流量切分_ABTEST平行流量切分和分层流量切分高效实现及优缺点分析

    ABTEST的流量切分一般是根据请求的条件组合进行切分 具体的切分方式可分为平行切分和树形切分 水平切分方式实现 水平切分就是每个流量中直接配置满足的定向配置,当满足此定向条件时就执行此test分支. ...

  7. 流量为王:收益最大化的混排机制

    作者:九羽,公众号:炼丹笔记 信息流场景展示内容在实际业务场景中并不是单一的同类内容,可能有图文.视频等主场景信息流内容,也会有广告.商品等商业内容,同时,针对特殊场景还存在着引流入口的穿插.不同类型 ...

  8. 北京华为HCIE认证里的数通深入学习QOS流量整形令牌桶机制和规则-ielab网络实验室

    北京华为HCIE认证里的数通深入学习QOS流量整形令牌桶机制和规则-ielab网络实验室在华为设备中,需要对流量整形的概念需要进行解释: CIR,committed Information Rate, ...

  9. 互联网将如何继续演绎“流量为王”的神话?

      互联网将如何继续演绎"流量为王"的神话? 文/飞天含雪 QQ 543415188 目前对网站影响力评价的重要指数其中有流量一说,门户网站是如此,搜索引擎公司亦是如此.2000年 ...

最新文章

  1. 云计算带来企业管理的革命
  2. 频谱细化(补零、zfft、czt)
  3. 语言 上课点名 缺勤_主播日记5 | “云端”传递的C语言程序设计实验课
  4. mysql的字符串处理函数
  5. vuepress 2.x 集成百度统计
  6. GitHub 标星 5w+!Python 新手 100 天学习计划,这次再学不会算我输!
  7. 【数位DP】恨7不成妻
  8. 高德地图只显示某个省份
  9. 为什么win10开热点后电脑没有网络?
  10. 酒店服务机器人或被用于长期偷窥旅客
  11. 即时通讯之xmpp协议简析
  12. 汽车轮毂识别定位检测
  13. 【C语言】calloc函数
  14. linux基础教程 ppt,Linux基础教程(1)操作系统基础 PPT
  15. AWS abbreviation
  16. 万字拆解Gucci:率先迈向数字化的奢侈品,后来怎么样了?
  17. 关于小米文件管理器的介绍及源码下载
  18. java获取手机号归属地
  19. 【重磅来袭】这绝对是全网最全的Springboot面试题
  20. UPS不间断电源测试技巧有哪些?

热门文章

  1. C#实现笔记本自带蓝牙与汇承HC-08(BLE)蓝牙模块通讯
  2. 蓝牙 韦东山_韦东山生活实例演绎法讲解蓝牙
  3. 密码算法测试向量——SM3
  4. 《卓有成效程序员》第四章
  5. leangoo大讲堂—北京站
  6. ppi 各代iphone_从iPhone 6到iPhone X:居然隐藏了这么多秘密
  7. 德邦首份上市年报:内部焦虑权衡论与外部攻守道
  8. CISSP 第十一章 安全运营
  9. win10桌面计算机在哪里打开,Win10计算器在哪里?三种可以打开Win10计算器的方法图文介绍...
  10. 日志特征选择汇总(基于天池比赛)