转载:概率论系列考点 — 统计功效 | 最小样本量

统计功效及最小样本量是假设检验的 进阶知识点

也是AB实验中非常常用的两个基本概念

因此,是各大厂面试官考察应聘者对假设检验的 真实 掌握情况

考点举例

▶ 第一类错误的定义?

 统计功效的定义,以及应用场景?

 统计功效较低的影响是什么?

 最小样本量计算公式是什么?

 计算最小样本量的业务指导意义?

以下文章涉及相关推导,有些同学可能看着吃力些

不要担心

只要了解 假设检验 | 统计功效 | 最小样本量的 定义 公式结果 及 应用场景 即可应对大部分的笔面试题!

一、假设检验

假设检验作为AB实验最基础的知识点。

我们必须熟记第一类错误和第二类错误的定义,以及检验统计量相关的前提条件。

原假设 | 备择假设

  • 原假设,用H0表示,通常将不应轻易加以否定的假设作为原假设。

  • 备择假设,用H1表示,当H0被拒绝时而接收的假设。

第一/二类错误

  • H0为真但由于随机性使样本观测值落在了拒绝域中,从而拒绝原假设H0,这种错误称为第一类错误,也称为α错误。

  • H0不为真,但由于随机性使样本观测值落入接受域中,从而接受假设H0,这种错误称为第二类错误,也称为β错误。

下面用一张图来理解一下这两类错误:

互联网每日可获取大量的用户行为数据,根据统计量的检验方法,当样本量较大的时候,我们采用U(正态分布)检验法。

后面我们也将基于U检验法进行相关的讲解和推导。

二 统计功效

统计功效(statistical power)是指,当H0为假拒绝H0的概率。也就是1-β的概率。

下面我们以双边检验为例,单边检验只要进行相应的替换即可。

原假设和备择假设如下:

假根据第二类错误的定义当H0为假时,接受H0的概率,下面来详细推导统计功效的计算逻辑。

对于单边检验,功效power的推导结果为:

▼ 划重点:

  • 统计功效的定义及公式展示结果。

  • 统计功效低,那么当AB两组差异真的存在时,我们很可能会错误判断两组差异不存在。

  • 我们一般把统计功效定义在80%(或90%)以上,即β在0.2(或0.1)以下。认为这样的可信度是可以接受的。

三 最小样本量

最小样本量是在准备开展AB实验时,对目标提升效果预计需要的样本量估算,方便提前估算出AB实验的运行周期。

以单边检验为列,进行最小样本量计算,假设两组样本数量相等,均为n ,则最小样本量为:

双边检验的推导类似,最小样本量为:

▼ 划重点:最小样本量同时考虑了第一类、第二类错误。

以上,就是关于假设检验 | 统计功效 | 最小样本量的考点梳理。

【数据攻略】 假设检验 | 统计功效 | 最小样本量相关推荐

  1. 信息化时代的大数据攻略

    BI:信息化时代的大数据攻略 据调查,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的. 这是一个信号:信息化时代已经迈入了大数据的新纪元. 马云说,大 ...

  2. 物联网课程学习目标_学习攻略|软件工程统计方法amp;amp;物联网

    软件工程统计方法 && 物联网 任课老师:余松森,葛红 课程特点及困难 本课程的主要内容涉及统计机器学习方法, 以及如何采用Python进行应用实现. 同学们在学习中主要遇到以下问题: ...

  3. 【数据攻略】字节面试真题(含答案)+100道面试题库

    整理了一套字节的面试真题,还有100道PDF版的面试题库 一.SQL题 面试真题1: 抖音电商平台,现有一张订单表(order_info),有以下字段: order_id goods_id order ...

  4. 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)

    在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 a方支持率为45.3%: b方支持率为30.2%: c方支持率为8.5%: ... 最后都会说明一下,此次电话调查的数量2 ...

  5. 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)...

    在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 a方支持率为45.3%: b方支持率为30.2%: c方支持率为8.5%: ... 最后都会说明一下,此次电话调查的数量2 ...

  6. Python数据攻略-Pandas数据分组GroupBy

    大家好,我是Mr数据杨.今天我们将一同走进充满数字的Python世界,我想拿<三国演义>的例子来阐述一下学习笔记中的主题. 首先得有数据.试想一下,如果三国的谋士们如诸葛亮,郭嘉,周瑜,手 ...

  7. Python数据攻略-Pandas数据重塑及透视表

    大家好,我是Mr数据杨.让我们一起走进Python的世界,揭开它在数据处理中的神秘面纱.让我带你走进<三国演义>,看看Python在三国演义中的应用.想象一下,假如诸葛亮在草船借箭这个计划 ...

  8. Python数据攻略-Pandas数据处理加速技巧

    大家好,我是Mr数据杨.想象一下三国时代,郭嘉如何制定天下大计,周瑜如何破敌一击,他们都不是一步步走来的,而是精心准备.周全考虑的.同样,在Python中,数据准备也是至关重要的第一步,就像筹备一场战 ...

  9. Python数据攻略-Pandas进行Excel文件读写

    大家好,我是Mr数据杨.让我借<三国演义>中的故事为大家解说今天的Python学习笔记教程. 想象一下,曹操正在用Pandas库排序军队的入门.他将每个兵士的信息视为数据,这些数据需要进行 ...

  10. Python数据攻略-图像存储与读取技术

    大家好,我是Mr数据杨.今天的主题是如何像三国时期的智者那样处理数据.请想象一下,如果三国中的谋士们要处理大量的情报,他们会如何做呢? 从数据准备开始.周瑜在赤壁之战中,需要收集各方面的情报,这就如同 ...

最新文章

  1. linux shell mv/cp 错误: will not overwrite just-created <filename> with <sameFilename> 解决方法
  2. 模拟spring - 简单实现spring IOC
  3. boost::mpl模块实现unpack_args相关的测试程序
  4. 找不到托盘菜单配置文件_随手在仓库捡的木托盘,简单改造一下,10件家具不用买了...
  5. 【文末有福利】艺术创造规则,而不是规则创造艺术
  6. linux修改容器内的mysql端口_Linux系统下修改phpstudy集成环境中的MySQL端口号的步骤...
  7. StrokePlus常用脚本
  8. 【转】windows下GSL的配置
  9. date java format_java-DateFormat
  10. cad转图片格式后不清晰怎么办?三步即可解决
  11. 分支定界法求解整数规划
  12. Office办公软件三十而立,从一花到多花(上)
  13. js制作网页动态背景
  14. xp访问共享文件夹需要重启服务器,winXP共享文件夹断开、重新连接、重设置密码的方法...
  15. 生死看淡,不服就GAN
  16. 泳道流程图:跨职能流程图
  17. PCL——超体素(SuperVoxel)、超体聚类分割
  18. 植物代谢组学-线虫信息素的植物代谢介导植物与线虫的相互作用
  19. 关于数字石油,为什么智慧油田能拉动产业变革?
  20. 【已解决】No module named “win32com“ win32com 无法导入

热门文章

  1. 看 AWS 如何通过 Nitro System 构建竞争优势
  2. Vue图片、视频预览组件(vue-gallery)
  3. 10款白嫖网站笔记整理
  4. delphi pi怎么得到?
  5. 基于感知器准则的线性分类器设计
  6. matlab 电流平均值,电流平均值谐波检测方法MATLAB仿真
  7. 5G NR CSI Report中关于codebook/PMI的理解(1)
  8. 串珠问题(今日头条笔试)
  9. Keil(MDK)4升级到Keil(MDK)5
  10. 保监会借大数据摸底保险中介市场