辛普森悖论

Simpson’s paradox occurs when we observe a certain trend in the aggregate data but not in the underlying segments that comprise the data. In the A/B testing domain, Simpson’s Paradox can occur when the overall mean conversion rate and/ or average order value of the experiences tested point to a result different from the mean conversion rates and/ or average order value of the underlying segments.

当我们观察到的数据总量有一定的趋势,但不包含数据的底层段发生了S impson的悖论。 在A / B测试领域中,当所体验的总体平均转换率和/或平均订单价值指向与基础细分的平均转换率和/或平均订单价值不同的结果时,就会发生Simpson悖论。

Let me illustrate this with an example from Georgi Georgiev’s blog post, instructor at CXL. Suppose you run an A/B test between Page A and Page B and see the following results:

让我用Georgi Georgiev的博客文章 (CXL的讲师)中的示例进行说明。 假设您在A页和B页之间运行A / B测试,并看到以下结果:

Aggregate A/B test results
A / B汇总测试结果

Looking at the average conversion rate, it looks like you have a conclusive test with B beating A (assuming the sample size requirements, and other conditions such as statistical significance and power were met). But before you take that victory lap around the office, you see something completely unexpected. When you segment the data by the different traffic sources, you see that A has outperformed B for each traffic source!

从平均转换率来看,您似乎进行了B击败A的结论性测试(假设样本大小要求,并且满足其他条件,例如统计显着性和功效)。 但是在您绕着办公室赢得胜利之前,您会发现完全出乎意料的事情。 当您按不同的流量来源对数据进行细分时,您会发现A在每个流量来源方面的表现都优于B!

A/B Test results broken down by traffic source
A / B测试结果按流量来源细分

What does this mean? How is this even possible? This is a classic example of Simpson’s Paradox.

这是什么意思? 这怎么可能? 这是辛普森悖论的经典例子。

是什么导致辛普森悖论? (What causes Simpson’s paradox?)

Simpson’s paradox is essentially caused by weighted averages. In the example above, when we combine the results by traffic sources, the dominant traffic source for each of the variants heavily influences the aggregate conversion rates, thereby switching the direction of the results. In other words, the following two things happen:

辛普森悖论本质上是由加权平均值引起的。 在上面的示例中,当我们按流量来源组合结果时,每个变体的主要流量来源都会严重影响总转化率,从而切换结果的方向。 换句话说,发生以下两件事:

  • Page A’s conversion rate (5.6%) is heavily influenced by the conversion rate of Traffic Source 1 (5%) which accounts for 75% of its traffic.Page A的转化率(5.6%)受到流量来源1的转化率(5%)的严重影响,该流量占其流量的75%。
  • Page B’s conversion rate (7.3%) is heavily influenced by the conversion rate of Traffic Source 3 (8%) which accounts for over 80% of its traffic.Page B的转化率(7.3%)受到流量来源3的转化率(8%)的严重影响,该流量占其流量的80%以上。

The traffic source volume in this case is called a “lurking” variable or confounding variable. It is unevenly distributed between the experiences and is in fact responsible for the observed results. This can easily move our test dangerously close to comparing apples to oranges.

在这种情况下,流量来源量称为“潜伏”变量或混淆变量。 它在体验之间分布不均,实际上是观察结果的原因。 这很容易使我们的测试危险地接近将苹果与橙子进行比较。

辛普森悖论在A / B测试中的另一个实例 (Another instance of Simpson’s Paradox in A/B Testing)

Another way Simpson’s Paradox can creep into A/B testing is with what is known as “ramping up”. This occurs when the traffic allocation between experiences is changed.

辛普森悖论可以进行A / B测试的另一种方式是所谓的“提升”。 当体验之间的流量分配发生更改时,会发生这种情况。

Ronny Kohavi from Microsoft shared an example wherein a website got one million daily visitors, on both Friday and Saturday. On Friday, 1% of the traffic was assigned to the treatment (i.e. the variation), and on Saturday that percentage was raised to 50%.

微软公司的Ronny Kohavi举了一个例子,该网站在星期五和星期六每天都有一百万的访问者。 在星期五,将1%的流量分配给该处理(即变体),在星期六,该百分比提高到50%。

Even though the treatment had a higher conversion rate than the Control on both Friday (2.30% vs. 2.02%) and Saturday (1.2% vs. 1.00%), when the data was combined over the two days, the treatment seemed to underperform (1.20% vs. 1.68%).

即使在星期五(2.30%比2.02%)和星期六(1.2%比1.00%)上,治疗的转换率都比对照高,但两天的数据合并后,治疗效果似乎不佳( 1.20%和1.68%)。

This is again because we are dealing with weighted averages. The data from Saturday, a day with an overall worse conversion rate, impacted the treatment more than that from Friday.

这再次是因为我们正在处理加权平均值。 从周六开始的数据(转换率总体较差的一天)对治疗的影响要大于周五以来的影响。

Simpson’s Paradox due to change in traffic allocation between experiences
辛普森悖论归因于体验之间流量分配的变化

你如何避免呢? (How do you avoid it?)

  • Make sure that the samples are completely randomized and free from bias which means a visitor coming to the page is equally likely to see any of the experiences. This will ensure that the distribution of visitors from different traffic sources, browsers etc is comparable across the experiences and the underlying differences in conversion rates do not unequally impact one experience more than the other.

    确保样本完全随机且没有偏差,这意味着访问该页面的访问者同样有可能看到任何体验。 这将确保来自不同流量来源,浏览器等的访问者分布在各种体验之间具有可比性,并且转换率的根本差异不会使一种体验比另一种体验受到更大的影响。

  • Make sure to send the test data to your web analytics tool (Google Analytics etc). This is not only important for post-hoc segmentation but also can give you a way to spot such bias early on in the test. Segment the experiences based on traffic sources, devices, browsers etc. to make sure that there are no confounding factors at play.

    确保将测试数据发送到您的网络分析工具 (Google Analytics(分析)等)。 这不仅对事后细分很重要,而且还可以为您在测试中尽早发现这种偏差提供一种方法。 根据流量来源,设备,浏览器等对体验进行细分,以确保没有混淆因素在起作用。

“It’s (simpson’s paradox) a most startling example of what failure to segment by meaningful dimensions can lead to. “Segment, segment, segment!” is what this paradox teaches us.” as per Georgi Georgiev.

“这是(辛普森悖论)最令人震惊的例子,说明未能按有意义的维度进行细分会导致什么。 “细分,细分,细分!” 是这个悖论教给我们的。” 根据Georgi Georgiev。

  • If you are concerned about the impact of the test on website conversions, instead of changing the traffic allocation between the experiences after starting the test, you may want to allocate a lower % of traffic to the test to start with. Based on the stability and performance of the test, you can then increase the traffic to 100%. Should you absolutely need to start a test with different traffic allocation between experiences for any reason, start a new test when you are actually ready to test.

    如果您担心测试对网站转化的影响,而不是在开始测试后不更改体验之间的流量分配,则可能要为测试分配较低的流量百分比 。 根据测试的稳定性和性能,您可以将流量增加到100%。 如果出于任何原因您绝对需要使用不同体验之间的流量分配来启动测试,请在实际准备测试时开始新的测试。

  • Use stratified sampling which is the process of dividing members of the population into homogeneous and mutually exclusive subgroups before sampling. However, testing tools do not offer this.

    使用分层抽样 ,这是在抽样之前将总体成员分为同质和互斥子组的过程。 但是,测试工具不提供此功能。

我们如何决定A / B测试 (How do we decide A/B tests)

As per Georgi Georgiev, if we are already in such a situation

根据Georgi Georgiev,如果我们已经处于这种情况

the decision on whether to act on the aggregate or on the by segment data is up to the story behind the numbers, not the numbers themselves.

是否对汇总数据或按细分数据采取行动取决于数字背后的故事,而不是数字本身。

He suggests evaluating each pair of confounding variable and experience qualitatively. For example, we may end up retaining both the landing pages as they are performant for different traffic sources (based on seasonality etc.).

他建议定性评估每对混杂变量和经验。 例如,我们可能会保留两个着陆页,因为它们对于不同的流量来源(基于季节性等)表现良好。

In order to do this in a data-driven manner, we could treat each pair as a separate experience and perform some additional testing until we reach the desired statistically significant result for each pair (currently we do not have significant results pair-wise).

为了以数据驱动的方式执行此操作,我们可以将每对视作单独的体验,并执行一些其他测试,直到获得每对对所需的统计上显着的结果(当前,我们没有成对的显着结果)。

额外资源 (Additional resources)

Simpson’s Paradox by minutephysics

微小物理学的辛普森悖论

Are University Admissions Biased? | Simpson’s Paradox Part 2 by minutephysics

大学入学申请是否有偏见? | 辛普森悖论第2部分by分钟物理学

Simpson’s paradox on Wikipedia

辛普森在维基百科上的悖论

Segmenting Data for Web Analytics — The Simpson’s ParadoxBy GEORGI GEORGIEV

用于Web分析的数据细分—辛普森悖论GEORGI GEORGIEV

Seven Pitfalls to Avoid when Running Controlled Experiments on the Web — Ron Kohavi, Microsoft

在网络上运行受控实验时应避免的七个误区-Ron Kohavi,微软

The top 3 mistakes that make your A/B test results invalid — Widerfunnel Blog

导致A / B测试结果无效的前3个错误-Widerfunnel Blog

Validity Threats to Your AB Test and How to Minimize Them — Invespcro Blog

AB测试的有效性威胁以及如何将其最小化-Invespcro Blog

翻译自: https://medium.com/@bithika.mehra/how-simpsons-paradox-could-impact-a-b-tests-4d00a95b989b

辛普森悖论


http://www.taodudu.cc/news/show-2576963.html

相关文章:

  • 浅谈辛普森悖论的应用
  • 辛普森公式求积分
  • python辛普森积分_辛普森在Python中的规则
  • 自适应辛普森积分
  • 复合辛普森公式matlab,复合梯形公式、复合辛普森公式 matlab
  • 辛普森积分
  • 辛普森 matlab,利用MATLAB软件编写辛普森求积公式程序
  • 自适应辛普森(Simpson)积分及二重积分
  • 辛普森悖论
  • 辛普森法 matlab,MATLAB辛普森法则
  • [基本功]辛普森悖论
  • 【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)
  • 什么是辛普森悖论?
  • detach()函数的用法
  • detach()函数理解
  • C++多线程detach函数使用
  • PyTorch的参数固定以及detach clone
  • c++多线程detach函数用法的实例
  • torch中的retain graph、detach
  • Pytorch-detach()用法
  • pytorch-Detach的作用
  • 关于Pytorch中detach
  • java detach_jQuery中detach()方法用法实例
  • C++-线程的join和detach
  • pytorch 中 .detach() .detach_() 和 .data的区别
  • Qt隐式共享detach函数的理解
  • java thread detach,C++语法学习笔记四十三:线程启动、结束,创建线程多法、join,detach...
  • JPA 之 detach方法的使用及注意事项
  • pytorch detach解析
  • java detach_java – Spring JpaRepository – Detach和Attach实体

辛普森悖论_辛普森悖论如何影响AB测试相关推荐

  1. 辛普森悖论如何影响AB测试

    Simpson's paradox occurs when we observe a certain trend in the aggregate data but not in the underl ...

  2. python 数据逐个验证_案例实战 | Python 实现 AB 测试中常见的分层抽样与假设检验 (附代码和数据集)...

    在这里插入图片描述 作者 l 萝卜 本文会将原理知识穿插于代码段中,相关代码和数据集可在公众号 " 数据分析与商业实践 " 后台回复 " AB测试 " 获取. ...

  3. 14悖论_经验悖论–如何没有经验就找工作

    14悖论 成为软件开发人员最困难的事情之一是需要工作才能获得经验而需要经验才能获得工作的经验悖论. 当然,这个问题并不局限于软件开发领域,但是许多新软件开发人员通常都在为获得第一份工作而苦苦挣扎,尤其 ...

  4. 多场景业务实战-AB测试实战(数据分析干货!!!!!)

    AB测试实战 学习目标 掌握如何设计AB测试 AB测试效果如何解读 掌握如何进行实验设计与效果计算 1.AB测试介绍 很多网站/APP的首页都会挂一张头图(Banner),用来展示重要信息,头图是否吸 ...

  5. 数据分析AB测试实战项目

    本文是<数据蛙三个月强化课>的第四篇总结教程,如果想要了解数据蛙社群,可以阅读给DataFrog社群同学的学习建议.温馨提示:如果您已经熟悉数据分析指标,大可不必再看这篇文章,或是只挑选部 ...

  6. 逻辑推理篇:数据分析中违背常理的悖论:辛普森悖论

    在现实生活中,我们常常会遇到这样一种现象,当尝试研究两个变量是否具有相关性的时候,会分别对此进行分组研究. 然而,在分组比较中都显示非常有优势的一方,在总评时却成了失势的一方.直到1951年,英国统计 ...

  7. 每日一课 | 详解数据分析中违背常理的悖论:辛普森悖论

    Python大本营每日一课 大家好,本期7日专栏内容,营长将为大家分享新的内容知识,"数据分析",营长邀请的是宿永杰,某知名互联网公司数据挖掘工程师,小伙伴们别忘记打卡哦. 数据分 ...

  8. 大数据ab 测试_在真实数据上进行AB测试应用程序

    大数据ab 测试 Hello Everyone! 大家好! I am back with another article about Data Science. In this article, I ...

  9. 数学三次危机(三)“希帕索斯悖论”或“毕达哥拉斯悖论”

    作为古希腊著名的数学家,毕达哥拉斯最重要的数学成果是证明了勾股定理.然而,具有戏剧性的是,由毕达哥拉斯建立的这一定理却成了毕达哥拉斯学派教学信仰的"掘墓人",并在数学界掀起了一场轩 ...

  10. 训练集山准确率高测试集上准确率很低_推荐算法改版前的AB测试

    编辑导语:所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西:如今很多软件都有这样的操作,对于此系统的设计也会进行测试:本文作者分享了关于推荐算法改版前的AB测试,我们一起 ...

最新文章

  1. hdu1027 Ignatius and the Princess II (全排列 amp; STL中的神器)
  2. 四十二、文件的物理结构(下)
  3. Java根据模板创建excel文件
  4. 手把手教你发布自己的CocoaPods开源库
  5. BZOJ 2754 [SCOI2012]喵星球上的点名 (AC自动机、树状数组)
  6. TP查询数据库多维数组
  7. SAP云平台和SAP HANA Enterprise Cloud(HEC)的区别
  8. mysql两台服务器怎么做数据同步_两台mysql服务器实现双机互备配置并测试数据同步...
  9. “携号转网”正式试运行,这两个原因或致无法转网
  10. shell 脚本编程总结
  11. android蜂巢效果、环形菜单、Kotlin影视应用、简约时钟、查看导出App、支付宝AR扫码效果等源码...
  12. excel 嵌套html,excel 多层if嵌套怎么优化
  13. [Step By Step]SAP HANA PAL 数据处理四分位间距检测Inter-quartile Range Test范例IQRTEST
  14. 陈松松:推荐制作高清视频必备的3个工具
  15. FFmpeg[15] - 从官网下载FFmpeg时的坑,你有遇到吗?
  16. 【目标检测】YOLO系列——YOLOv1详解
  17. 主动降噪耳机哪个好?2021年双11主动降噪耳机推荐!
  18. 使用Hyper-V的虚拟机搭建集群
  19. 《以道御术》荣耀上市,高管书评
  20. android:m/mm/mmm

热门文章

  1. 在Visual Studio中对Epicor10进行二次开发
  2. 解释什么是啸叫,为什么会发生啸叫,啸叫的为何和如何防止啸叫
  3. 房产圈的极客---前搜房网副CTO曹艳白干了件大事!
  4. python删除csv某一行_python删除csv行
  5. short java_java基本数据类型short的使用(23)
  6. Java多线程并发笔记01 对象锁 类锁 对象锁的同步和异步 脏读
  7. 用 emacs 浏览 C/C++ 项目
  8. 管理,就是做减法!聊聊 “奥卡姆剃刀定律”
  9. 遗传算法 - 简单介绍
  10. java 卫星轨道6根数实现轨道预测