Feit E M, Berman R. Test & Roll: Profit-Maximizing A/B Tests[J]. Marketing Science, 2019: 1038-1058.

摘要:

营销人员通常使用A/B测试作为一种工具,在测试阶段比较营销处理,然后将性能更好的处理部署到剩余的消费者群体中。虽然这些测试传统上是通过假设检验来分析的,但我们将其重新定义为在测试的机会成本(某些客户接受次优治疗)和向其余人群部署次优治疗相关的潜在损失之间的明确权衡。

我们得到了利润最大化测试规模的一个闭式表达式,并表明它比通常推荐的假设检验小得多,特别是当响应是噪声或总人口很小时。使用小规模持留群体的常见做法可以通过不对称的先验知识加以合理化。所提出的测试设计实现了几乎相同的预期遗憾与灵活,但是在广泛的条件下很难实行多臂老虎机。

我们在三种不同的营销环境中展示了该方法的优势——网站设计、展示广告和目录测试——在这三种环境中,我们从过去的数据中估算出优先权。在这三种情况下,最优样本量比传统假设检验的样本量要小得多,因此利润更高。

关键词:A/B检验、随机对照试验、市场试验、贝叶斯决策理论、样本量

引言

实验是一个重要的工具,营销人员在广泛的设置,包括直邮,电子邮件,显示广告,社会媒体营销,网站优化,和应用程序设计。在战术营销环境中,我们称之为“测试和滚动”实验(test&roll experiments),关于客户反应的数据首先是在测试阶段收集的,在测试阶段,客户子集被随机分配给一个方案组。在接下来的滚动阶段,营销人员根据测试结果向所有剩余的客户部署一种处理方案。

我们开发了一种新的方法来规划和分析有限总体的A/B测试。而零假设检验是科学和医学研究中的“黄金标准”,通常被推荐用于市场试验(例如,Pekelis等人。(1)中的统计显著性阈值对于以利润最大化为目标的test&roll实验来说是一个糟糕的决策规则,,原因有四。

首先,在典型显著性水平(如α=0.05)下进行的假设检验,以避免得出两种方案在不存在时表现不同的结论。然而,假设没有部署成本,这些I类错误对利润的影响很小。如果不能拒绝空值并且两个处理产生相同的效果,则无论部署哪个处理,都将获得相同的利润。由于测试阶段学习和滚动阶段收益之间的利益权衡,基于零假设测试的保守样本量通过让太多人在测试中受到不太有效的处理而降低了总体预期利润。

我们在第2节中重新构建了测试和滚动决策问题,重点关注利润,并在测试的机会成本(某些客户接受次优处理)和将次优处理部署到有限总体的剩余部分相关的损失之间做出明确的权衡。实际上,我们定义的问题可以看作是一个多臂老虎机的受限版本,其中只有两个分配决策,而不是多个。

在第三节中,我们推导了利润最大化样本容量的一个新的封闭解,假设每个客户的平均收入正态分布。在这个框架下的测试样本量通常比(2)推荐的要小得多。与假设检验的样本量随(2)中的响应方差线性增加不同,利润最大化样本量随响应的标准偏差呈次线性增加,导致当响应有噪声时测试规模大大减小。利润最大化的样本也与可用总体规模的平方根成比例,因此它们自然地可以扩展到大环境和小环境。

利润最大化测试在处理效果较大时以高概率识别出最佳执行的方案,从而实现了性能的提高;当处理效果较小时,由于处理选择错误而造成的损失利润(遗憾)很小。们还表明,利润最大化样本量的test&roll几乎达到了与多臂老虎机问题的汤普森抽样解决方案相同的遗憾水平(Scott 2010,Schwartz et al。2017年);两人都有O(√N)的遗憾。尽管相对于多臂老虎机来说是次优的,但利润最大化test&roll提供了一个透明的决策点,降低了操作复杂性,而不会造成显著的利润损失。

第4节将分析扩展到处理上具有不同优先级的情况,并提供了一种计算最佳样本量的有效数值方法。这使我们能够合理化使用不相等规模的方案组的常见做法,当两种方案被认为是先验地产生不同的反应时,例如比较媒体曝光与不曝光的测试或比较两种不同价格的测试。

为了说明如何在实践中设计测试和滚动实验,第5节提供了三个实证应用:网站设计、在线展示广告和目录营销。对于每个应用程序,我们根据之前的类似实验来估计优先级。这些应用程序显示了由不同的优先级产生的广泛的测试设计,并显示了零假设测试所支持的“一刀切”方法并不能使利润最大化。在第6节中,我们将讨论test&roll框架的潜在扩展以及对a/B测试人员的影响。有关命题和证明的完整陈述见附录。

6 Discussion

我们提出了一种新的A/B测试样本量规划方法。与传统的假设检验强调高可信度和高能力不同,我们的方法在滚动阶段不部署最佳治疗方案和在测试阶段识别该方案的成本之间进行最佳平衡。实际结果是,推荐的测试规模要小得多,可以根据可用的总体规模进行调整。最重要的是,通过关注利润,我们表明,不应阻止营销人员进行小型测试并根据结果采取行动;虽然不完美,但此类较小的测试会增加利润。利润最大化测试可能会不平等地将测试样本分成不同的处理方式,从而使我们能够合理化营销实验中的这种常见做法。

利润最大化的样本量是为市场营销活动而优化的,通常目标人群有限。直接营销活动通过有限的邮件列表进行。媒体活动有固定的预算。网页流量有限。在有限总体的情况下,公司应该确定哪种方案适合大多数人群,而不是在测试中“浪费”太多的暴露在次优方案上。

与完全动态方法不同(Bertsimas和Mersereau 2007,Chick和Frazier 2012,Schwartz等人。2017年)我们的方法适用于典型的A/B测试框架,除了推荐的样本量外,不需要更改测试软件。通过确定试验阶段的结束,限制必须维持的替代方案的数量,并提供关于正在选择的方案、导致选择这种方案的证据以及预期益处(或遗憾)是什么的透明度来降低操作复杂性。管理者可以在“滚动”前插入,这些特性使利润最大化的测试和滚动对营销人员具有吸引力。

我们的方法的一个局限性是不能总是选择最好的方案。虽然错误率可能高于典型的零假设检验所保证的错误率,但是利润最大化检验规模基于处理之间的潜在差异和由此产生的机会成本来优化设置错误率。在决策者不愿承担风险或采用低于标准的治疗成本非常高的情况下,如在临床试验中(Berry等人。1994,Cheng等人。2003年),那么其他方法是有必要的。

进一步扩展第2节中介绍的测试和滚动框架将是有用的。当一组实验的数据变得可用时(Johnson等人。2017年,Bart等人。2014年),我们有机会为不同的测试环境开发一个先验目录。可以考虑其他形式的优先分配。例如,Stallard等人。(2017)使用近似值将测试和滚动框架扩展到指数族的响应分布。(Azevedo等人。2019年)专注于长尾巴的前科。

测试和滚动方法很容易扩展到两种以上的治疗方法,可能会考虑到相关的先验知识,例如,对于一个坚持治疗的群体和几种替代的营销治疗方法。对于线下营销治疗来说,在不同治疗方法之间切换的成本可能相当可观,这也可以纳入决策问题中。如果有可能将不同的治疗方法应用于亚人群,那么识别异质治疗效果的可能性(Hitsch和Misra 2018,Simester等人。2019)可在试验设计中考虑。同样,可以考虑反应中的时间依赖性,例如星期几或“新颖性”影响。这些扩展都很自然地适合于test&roll框架。

【论文翻译笔记】Test Roll: Profit-Maximizing A/B Tests相关推荐

  1. Faster R-CNN论文翻译笔记

    百度网盘论文链接,提取码:kk89 https://pan.baidu.com/s/12RDu3WLgH5WcV_Mo3q02xg 或者去arxiv下载<Faster R-CNN: Toward ...

  2. 论文翻译笔记:YOLO v4 :Optimal Speed and Accuracy of Object Detection

    YOLO v4 论文:https://arxiv.org/abs/2004.10934 YOLO v4 开源代码:https://github.com/AlexeyAB/darknet 参考图片笔记: ...

  3. Faster R-CNN 英文论文翻译笔记

    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren, Kaiming ...

  4. 联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记

    联邦学习笔记-<Federated Machine Learning: Concept and Applications>论文翻译个人笔记 摘要 今天的人工智能仍然面临着两大挑战.一是在大 ...

  5. A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

    A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...

  6. 基于MVS的三维重建算法学习笔记(五)— 立体匹配经典算法PatchMatch论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(五)- 立体匹配经典算法PatchMatch论文翻译及要点解读 声明 问题提出 问题建模 通过PatchMatch获取平面参数--Inference via Patc ...

  7. 区块链分片:《Monoxide: Scale Out Blockchain with Asynchronous Consensus Zones》论文翻译个人笔记

    区块链分片:<Monoxide: Scale Out Blockchain with Asynchronous Consensus Zones>论文翻译个人笔记 日期:2019年2月26- ...

  8. 基于MVS的三维重建算法学习笔记(四)— 立体匹配经典算法Semi-Global Matching(SGM)论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(四)- 立体匹配经典算法Semi-Global Matching(SGM)论文翻译及要点解读 声明 SGM概述 Cost Calculation(像素代价计算)--M ...

  9. Deep Residual Learning for Image Recognition(ResNet)论文翻译及学习笔记

    [论文翻译]:Deep Residual Learning for Image Recognition [论文来源]:Deep Residual Learning for Image Recognit ...

最新文章

  1. mybatis + oracle insert clob,出现ORA-01461:仅能绑定要插入LONG列的LONG值
  2. 型数据保留几位小数_Python数据分析—数据框的简单操作
  3. 《R语言初学指南》一2.3 找到R脚本中的错误
  4. 网络压缩《network pruning 浅析》
  5. 多数人读研或者更高学位,不过是学历军备竞赛中不得已的选择
  6. 蓝桥杯 ALGO-97 算法训练 排序
  7. Cognos8.3 + oracle9i数据集市 建cube性能调整
  8. Intellij Idea更换编程字体
  9. 安装与卸载应用程序 (Package Installer)
  10. Microsoft Word 2010 - 清除格式
  11. 360全景拍摄为什么要使用鱼眼镜头,与超广角镜头区别?
  12. 阿里巴巴二重身ABBC Coin虚涨逾100%
  13. 【51单片机学习笔记】基于STC11F04E的蜂鸣器音乐播放器
  14. 用科学计算机求arctan,计算器arctan怎么按
  15. 《漫步华尔街》的读书笔记作文2200字
  16. 【cookie】设置cookie过期时间 超时时间,Cookie 设置 expires
  17. ios 其他 清理不了_iOS/Android都无法回避的一件事儿:是它们让手机越来越好用...
  18. vue,img引入网图无法显示
  19. PBOC 3.0非接触式学习笔记(一)
  20. python调用随机分层抽样方法_python实现的分层随机抽样案例

热门文章

  1. 助创cms众筹 php,【教程】助创cms众筹系统操作流程详细说明
  2. python泰坦尼克号案例分析_泰坦尼克Python经典案例
  3. STM32学习笔记(十七)TLTLCD显示实验
  4. OSPF协议中查看路由器的RID
  5. 【英语词组】恋恋不忘Day 3-3
  6. NOIP 2008 普及组初赛试题 解题报告、题解及选择题思路,高质量
  7. [Git]git命令
  8. 使用Java实现矩形 平行四边形 等腰三角形 菱形 倒三角
  9. 2022.4.11-4.17 AI行业周刊(第93期):AI行业的困局
  10. java基于springboot的学生公寓管理系统