前言: 作为AB测试的学习记录,接上文内容, 本文继续介绍假设建立和实验设计部分,包括实验对象、样本量计算(显著性水平、统计功效及最小可检测效应)、实验周期。
相关文章:
AB测试——原理介绍
AB测试——流程介绍(定义问题和指标选取)

3. 假设建立

3.1 原假设和备择假设

在AB测试中,我们需要建立原假设和备择假设:

  • 零假设(H0)是默认的假设,即控制组和实验组之间没有显着差异。它表明两组之间任何观察到的差异都是由于机会因素造成的。
  • 备择假设(Ha)与零假设相反。它表明控制组和实验组之间存在统计学上显着的差异,而这种差异不是由于机会因素造成的。

3.2 案例说明

例如,我们进行了一个AB测试,将用户随机分为A组和B组,在A组中采用原来的页面设计,在B组中采用新的页面设计,然后比较两组用户的转化率。我们建立如下的假设:

  • 原假设(H0):页面设计对转化率没有显著影响,A组和B组的转化率相同。
  • 备选假设(H1):页面设计对转化率有显著影响,A组和B组的转化率不相同。

一个完整的AB测试假设可以描述为:“通过改进网站的页面设计(优化方向)来提高注册转化率(测试指标),我们将测试两个版本的网站页面(测试变量):版本A和版本B。我们希望看到版本B的注册转化率显著优于版本A,我们将在测试期内每个版本中招募至少1000名用户(测试样本量),测试期为两周(测试时间)。”

在AB测试中,建立清晰明确的假设非常重要,它能够帮助我们更好地理解测试目标和测试方案,高测试的可信度和有效性,从而优化产品和服务的效果


4. 实验设计

4.1 确定实验对象

4.1.1实验对象分类

实验对象类型下面总结了比较常见的六种:

  1. 用户:以每个用户的唯一标识(比如身份证号、用户ID)作为实验样本可以避免数据混淆,但需要注意用户特性、数量和行为对实验结果的影响,如用户数量较少时需要增加实验时间,保证实验组和对照组具有相似的行为习惯和偏好。
  2. 设备:以设备作为实验对象时,每个设备将只分配给一个实验组或对照组。因为这些设备通常只能由一个用户使用,可以避免同一个用户在两个分桶中的情况,从而确保数据的可靠性。使用设备作为实验对象时,需要考虑到设备的数量、品牌和型号的变化。
  3. 页面或屏幕:这是一种适用于网站和应用程序的实验对象分类,因为这些页面或屏幕通常是用户与应用程序交互的主要方式。使用时,需要考虑到页面或屏幕的种类、内容和布局的变化。
  4. 对话:如果要对用户在应用或网站上的交互行为进行实验,可以使用对话作为实验对象,如聊天机器人或客服。需要确保实验的随机性和可重复性,避免实验组和对照组之间对话内容或应用程序使用场景的差异对实验结果的影响。
  5. 区域:通常是将参与实验的用户按照所在区域划分为实验组和对照组。例如,可以按照城市、国家或地域等将用户分组。在这种情况下,需要考虑到区域的多样性、用户数量的变化、用户行为的差异等因素。同时,需要确保实验组和对照组在每个区域的用户数量相当,以确保实验结果的有效性。
  6. 时间:将参与实验的用户按照时间顺序划分为实验组和对照组。例如,可以按照日期、星期几、小时等将用户分组。在这种情况下,需要考虑到时间的变化、用户数量的变化、用户行为的变化等因素。同时,需要注意确保实验组和对照组在每个时间段内的用户数量相当,以确保实验结果的有效性。

4.1.2 明确目标群体

除了确定好实验对象的类型,还需要明确实验目标群体。实际实验中,往往只需要针对特定对象进行实验,基本很少会有把所有用户/设备当做实验对象的情况。

比如在页面设计中,针对B端和C端的页面是不同的,当实验针对的是B端商家的界面优化时,实验就与C端用户无关,即可排除掉无关的C端用户。同时,登录方式包括网页、APP, 网页页面优化和手机用户的体验无关。尽量减少不相干的用户

在实际应用中,需要根据实验的具体情况来选择适合的实验对象分类,并确保实验设计合理、随机性良好,以获得可靠的实验结果。

4.2 计算样本量

4.2.1最小样本量的意义

实验和业务的要求不同。实验是希望样本量越大越好,样本量越大越能保证实验结果准确;但是业务方希望样本小,可以降低风险,加速迭代。

样本量过小可能会导致测试结果不够准确,而样本量过大则可能会浪费资源。因此,实验必须 满足最小样本量,实验结果中的数据检验才可信。如果没有计算样本大小,可能会提前停止测试而得出错误结论。

样本量计算工具网址
加粗样式

4.2.2 显著性水平(Significant level)


显著性水平是指在假设检验中拒绝零假设的概率,用α表示。通常使用的显著性水平是0.05或0.01,表示假设检验中有5%或1%的概率出现误判,即错误地拒绝了真实的零假设。
换言之,在95%或99%的情况下,我们可以相信实验结果的可靠性。

1-α 为置信度或置信水平

4.2.3 统计功效(Statistical power)

统计功效(statistical power)是指在统计假设检验中,能够正确拒绝原假设的概率,即检验能够发现真实效应的概率。 也可以解释为,正确地获得小的P值(<0.05)的概率。

在计算样本量时,通常会根据要求选择实验的功效为0.8或0.9(或更高),即β在0.2(或0.1)以下。

引用百度百科解释:
在假设检验中, 当原假设错误时, 接受正确的替换假设的概率。
已知在假设检验中:α错误是弃真错误,β错误是取伪错误。取伪错误是指,原假设为假,样本观测值没有落在拒绝域中,从而接受原假设的概率,即在原假设为假的情况下接受原假设的概率。
由此可知, 统计功效等于1-β

它是在假设真实存在一定的效应差异时,我们能够在实验中检测到这种效应的概率。

统计功效与一类错误和二类错误密切相关,因为增加统计功效会降低二类错误的概率,但同时可能增加一类错误的概率。

4.2.4 最小可检测效应(Minimum detectable effect)

MDE指在实验中你希望能够检测到的最小变化量。 换句话说,它是一个指标,可以帮助我们确定是否需要进行实验,并确定实验的样本大小。在实际运用中,我们通常会设定一个最小可检测效应值,如果实验的结果小于该值,我们则认为实验结果不具有显著性,不值得进一步的关注。

通常情况下,最小可检测效应越小,需要的样本量就越大。

举个例子:

一个旅行网站希望能够验证一个方案去提高旅游报销的销售额。
已知: 1)网站每年有730,000个用户预定;2)预计保险的净利润为每个用户3美元;3)新方案将花费团队总计75000美元成本。

因此,在年度基础上,网站必须销售25,000份保险才能达到盈亏平衡,相当于添加保险的预订量为3.42% (25000 / 730000 = 0.0342)。通过ROI计算,3.42%将是一个合理的MDE。 即与现在相比,新方案需要对保险销量有3.42%的提升,该实验才有意义。

4.3 实验周期


一般而言,AB测试的实验周期应当足够长,以确保测试结果具有统计学意义和稳定性。

测试周期过短可能会导致测试结果不可靠或稳定性差,而测试周期过长则会延长测试周期和成本,影响测试效率。

在实际应用中一般是1~2周,以确保在不同时间段的测试结果差异不会对测试结果造成显著影响。此外,测试时长还应当根据测试指标和变化量大小来决定,一些指标可能需要更长的测试周期才能反映出变化的效果。

需要考虑周期效应和新奇效应:

4.3.1 周期效应(period effect)

周期效应是指用户行为周期带来的效应,比如季节效应、周内效应。用户可能会在某些时间点表现出与其他时间点不同的行为。

为了避免周期效应对实验结果的影响,可以采取以下措施:

  • 控制外部变量:尽可能地控制与实验相关的外部变量,例如假期、天气等因素。这样可以减少这些外部因素对实验结果的干扰,并更准确地评估实验的效果。

  • 分层实验:在实验设计中,可以将用户分成不同的层级,例如按照地理位置、年龄、性别等进行分层。这样可以更好地控制周期效应的影响,因为不同层级的用户可能会受到不同的周期性影响。

  • 长期实验:如果实验的目的是评估某个长期效果,那么可以考虑将实验设计成长期实验,以避免周期效应的影响。通过持续观察实验结果,可以更好地确定实验的效果,并减少周期效应对实验结果的干扰。

4.3.2 新奇效应(novelty effect)

新奇效应是指在用户面对新的或不同于以往的体验或设计时,会对其产生兴趣和好奇心,从而可能会导致其行为发生变化,而这种变化可能与实验本身无关。

为了避免新奇效应对实验结果的影响,可以采取以下措施:

  • 增加对照组数量:增加对照组数量可以帮助我们更好地确定实验结果是否受到新奇效应的影响。如果对照组数量足够大,那么我们就可以比较对照组和实验组之间的行为差异,从而确定实验结果是否具有统计显著性。

  • 分阶段实验:将实验分成多个阶段进行,逐步引入新设计或体验,可以帮助我们更好地了解用户行为的变化。通过观察不同阶段的实验结果,我们可以更准确地确定新奇效应的影响,并确定新设计或体验所带来的真正效果。

参考资料:
https://www.invespcro.com/blog/calculating-sample-size-for-an-ab-test/
https://www.eyeofcloud.com/abtest-widget/124.html
https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/
https://towardsdatascience.com/how-to-set-the-minimum-detectable-effect-in-ab-tests-fe07f8002d6d

AB测试——流程介绍(设计实验)相关推荐

  1. AB测试——流程介绍(实施实验和结果分析)

    前言: 作为AB测试的学习记录,本文通过例子介绍实验数据的验证过程. 相关文章: AB测试--原理介绍 AB测试--流程介绍(定义问题和指标选取) AB测试--流程介绍(设计实验) 5.1 选择测试和 ...

  2. 【BIOS测试流程介绍】

    BIOS测试流程介绍 BIOS测试流程简述 BIOS测试流程图 BIOS测试流程简述 BIOS工程师开发完功能,BIOS工程师初步测试OK,发布测试版BIOS. BIOS测试工程师部署测试环境,按照B ...

  3. AB测试的介绍与实施

    什么是AB测试 AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验 ...

  4. AB 测试平台的设计与实现

    AB 测试(以下称为「试验」),本质是把选择权交给用户,让用户决定什么是最好的.我们给参与试验的不同用户,分配不同的方案,收集用户数据并加以分析,最终确定最优方案. 试验方案的分配可抽象为一个哈希函数 ...

  5. 【转载】]基于RedHatEnterpriseLinux V7(RHEL7)下SPEC CPU 2006环境搭建以及测试流程 介绍、安装准备、安装、config文件以及运行脚本介绍...

    https://www.codetd.com/article/1137423 <版权声明:本文为博主原创文章,未经博主允许不得转载> 本次利用SPECCPU2006测试工具来进行Intel ...

  6. 多场景业务实战-AB测试实战(数据分析干货!!!!!)

    AB测试实战 学习目标 掌握如何设计AB测试 AB测试效果如何解读 掌握如何进行实验设计与效果计算 1.AB测试介绍 很多网站/APP的首页都会挂一张头图(Banner),用来展示重要信息,头图是否吸 ...

  7. AB测试-A/B Test

    网络上有很多类似名称,又名A/B试验,ab test. 文章目录 一.应用场景 二.什么是AB测试 三.AB测试可以解决什么问题 四.AB测试的流程 五.AB测试常见的误区 六.AB测试的原理 一.应 ...

  8. AB测试实战案例讲解及踩坑事项

    Hey,我是小z 今天我们来结合流程,讲讲具体的AB测试案例,以及AB测试中需要注意的问题,还有面试中可能会踩的坑. AB测试案例串讲 大体背景如下: 某社交APP增加了"看一看" ...

  9. oracle 14155,通用汽车GMW 14155 标准测试流程解读

    GMW 14155标准的意义 近年来,汽车NVH性能已成为用户选购车辆的重要参考因素之一.而整车NVH性能的好坏,与汽车子系统和零配件的设计密切相关,因此很多整车厂商对汽车子系统和零配件有明确的NVH ...

最新文章

  1. Windows Server 2016 + Exchange 2016 +Office365混合部署(四)
  2. javascript boolean/布尔表达式
  3. Windows Server 2008 R2 之二十一远程桌面服务RD之二
  4. java编写代理服务器_如何编写Java代理
  5. 接口安全--签名验证
  6. C++笔记:select多路复用机制
  7. linux视图版怎么输入命令,分享在Linux命令下操作MySQL视图实例代码
  8. 基于mysql学生成绩管理论文_基于SQL Server的学生成绩管理系统设计论文
  9. 数据结构和算法知识点整理
  10. 关于vue项目表单验证身份证号的正则表达式
  11. 华为--dis查看命令
  12. 基于Java实现的用于计算个人所得税的程序
  13. 桌宠启动不了,提示日文java6报错等,解决方案
  14. DAMA认证|数据治理和数字化的12项原则
  15. 入党积极分子思想汇报
  16. 谈谈我对矩阵维度的理解
  17. 我的世界奇葩种子java_这是什么奇怪遗迹?网上流传《我的世界》11个奇葩种子,你见过么...
  18. CVPR专访阿里iDST华先胜:电商搜索与城市大脑,本质上都是视觉系统问题|CVPR 2017...
  19. Spring Boot Vue完整的外卖系统,手机端和后台管理api 源码赠送
  20. linux正在装入应用程序,在Fedora系统上快速重新安装所有已安装的应用程序

热门文章

  1. 一位阿里导师给大学生的忠告
  2. html制作古诗带图画大全,春天的古诗配图画大全
  3. CPU CACHE中的VIPT与PIPT的工作原理
  4. Docker系列之MySQL安装教程
  5. 小学计算机教师业务笔记,信息技术教师业务学习笔记
  6. Python3时间戳转换为指定格式的日期
  7. 利用Python基础代码语句,实现2G时代文字小游戏,世界如此简单!
  8. LeetCode 力扣 56. 合并区间
  9. 暗组免杀php,那些强悍的PHP一句话后门
  10. 干货 | 足式机器人运动控制发展方向——轨迹优化