UA MATH571B 试验设计I 试验设计简介

  • 试验设计的作用与意义
    • 混淆变量
    • 相关性与因果
  • 试验设计的流程与目标
    • 消除偏差
      • 对照组
      • 随机试验
      • Blinding
    • 减少抽样误差
      • 重复试验
      • 平衡试验和区组设计

试验设计的作用与意义

有两类常用的统计研究方法,一类是观察性研究(Observational study),另一类是试验性研究(Experimental study)。观察性研究的数据是在事情发生以后我们去收集到的,所以变量之间的相关或者因果关系已经存在了,我们没办法去控制。观察数据的分析方法就是上个回归系列博文介绍的,这个系列要介绍的是试验性研究的分析方法。试验性数据是进行试验后收集到的数据,因此可以通过试验设计来控制某些变量对结果的影响,从而试验设计可以估计treatment effect,决定最优的treatment,也可以用来预测treatment的效应。

混淆变量

混淆变量(Confounding variable)又叫干扰变量,它会让两个不具有因果的事件变得统计上相关,一旦控制了混淆变量,这两个事件就不再相关了。在观察性研究中,我们无法采取主动措施去控制混淆变量,只能用一些被动的手段,例如使用工具变量等。但是在试验性研究中,我们可以通过试验设计去控制混淆变量。

相关性与因果

统计相关性与因果是非常容易弄混的,这里举一个有趣的例子,这个例子来自Matthews, R. (2000), Storks Deliver Babies (p= 0.008). Teaching Statistics, 22: 36-38. doi:10.1111/1467-9639.00013。Stork的意思是白鹳,民间称其为送子鸟,相传白鹳在谁家屋顶上筑巢,谁家就会喜得贵子。这篇论文想要回答的问题是送子鸟真的能够送子吗?这篇文章用了欧洲17国送子鸟的数量和出生率的数据计算了二者的PPMCC,并对PPMCC做了显著性检验,发现p值为0.008,忘了PPMCC的同学可以看一元回归相关性分析那篇博文。这个结论说明送子鸟的数量和出生率具有显著的正相关关系,然而作者提出了一个问题让大家思考:如果你是一名说客,你会用这个作为依据建议政治家通过引进送子鸟来提高出生率吗?显然这种相关性是不能用来作为政策干预的依据的,只有因果关系才可以。从统计模型上看,观察性研究比较难得到因果关系,但试验性研究是可以的。

试验设计的流程与目标

首先是要明确试验设计的目标,明确response是什么。然后根据试验目标选择需要的factor以及factor的level。接下来就是设计试验计划,做实验和数据分析了。response、factor和level需要区分一下。这里举一个简单的例子。假设要研究二氧化碳浓度对天竺葵光合作用强度的影响,那么我们可以选择单位时间内天竺葵叶片累积的淀粉作为光合作用强度的度量,也就是这个试验的response;我们要研究的treatment factor就是二氧化碳浓度,假设对照组(Control Group)二氧化碳浓度是410ppm,实验组(Treatment Group)的二氧化碳浓度是400ppm、420ppm,这里的410ppm、400ppm、420ppm就叫factor的level。
试验设计是在做试验以前的对试验的规划,因此它必须有这三个功能:1)消除偏差;2)减少抽样误差;3)确定样本数。

消除偏差

先解释一下偏差的含义。这里举一个日常生活中的例子。我们都知道六味地黄丸有滋阴补肾的功效,肾虚的人会气虚,气虚的话湿气就会重,湿气重了就有可能得脚气,所以我们可以设想一下,六味地黄丸应该是可以治疗脚气的。假设我们要研究六味地黄丸到底能不能治疗脚气,用二值随机变量TTT表示是否服用了六味地黄丸,用随机变量YYY表示患者左右脚三四趾趾腹真菌数之和(简称真菌数),对于个体iii而言,如果有脚气,记真菌数为Y1iY_{1i}Y1i​,如果没有脚气,则记真菌数为Y0iY_{0i}Y0i​。在做试验的时候,如果不做任何设计,我们只能观察到服用了六味地黄丸的个体的真菌数E[Yi∣Ti=1]E[Y_i|T_i=1]E[Yi​∣Ti​=1],以及未服用六味地黄丸的个体的真菌数E[Yi∣Ti=0]E[Y_i|T_i=0]E[Yi​∣Ti​=0],因此我们估计的平均效应(average effect)其实是两种效应的总和
E[Yi∣Ti=1]−E[Yi∣Ti=0]=(E[Y1i∣Ti=1]−E[Y1i∣Ti=0])+(E[Y1i∣Ti=0]−E[Y0i∣Ti=0])E[Y_i|T_i=1]-E[Y_i|T_i=0] = (E[Y_{1i}|T_i=1]-E[Y_{1i}|T_i=0] )\\ + (E[Y_{1i}|T_i=0] - E[Y_{0i}|T_i=0]) E[Yi​∣Ti​=1]−E[Yi​∣Ti​=0]=(E[Y1i​∣Ti​=1]−E[Y1i​∣Ti​=0])+(E[Y1i​∣Ti​=0]−E[Y0i​∣Ti​=0])
第一种效应是E[Y1i∣Ti=1]−E[Y1i∣Ti=0]E[Y_{1i}|T_i=1]-E[Y_{1i}|T_i=0]E[Y1i​∣Ti​=1]−E[Y1i​∣Ti​=0],它的含义是服用六味地黄丸的患者与未服用六味地黄丸的患者真菌数之差,显然这个是我们想估计的真实的treatment effect;第二种效应是E[Y1i∣Ti=0]−E[Y0i∣Ti=0]E[Y_{1i}|T_i=0] - E[Y_{0i}|T_i=0]E[Y1i​∣Ti​=0]−E[Y0i​∣Ti​=0]也就是未服用六味地黄丸的患者和未患脚气的个体真菌数之差,这一项一般叫做selection bias,或者简称偏差。
在观察性研究中,我们没有办法对数据形成的流程进行控制,只能观察到最终结果,因此观察性研究需要诸如DID、RDD等方法从总体数据中试图估计treatment effect。但试验性研究可以对流程加以控制,直接消除偏差,这是试验性研究相比观察性研究最大的优势。试验设计一般用三种手段消除偏差,添加对照组(simultaneous control group)、随机试验(randomization)、单盲/双盲试验(single/double blinding)。

对照组

对照组除了treatment factor以外,其他条件与实验组完全一致。比如在六味地黄丸这个试验中,我们可以选择80个身体状况相似的患者(一个患者就是一个试验单位unit),让其中40个服用六味地黄丸,另外四十个给placebo(安慰剂),这样的话我们完成试验收集数据估计的结果就直接是E[Y1i∣Ti=1]−E[Y1i∣Ti=0]E[Y_{1i}|T_i=1]-E[Y_{1i}|T_i=0]E[Y1i​∣Ti​=1]−E[Y1i​∣Ti​=0]。事实上接受安慰剂的患者也会获得一定的治疗效果,这叫placebo effect,安慰剂效应。因为可能存在安慰剂效应,设置对照组并进行安慰剂处理可能防止高估treatment effect。

随机试验

随机试验指的是将treatment随机分配给试验单位。假设第iii个unit的confounding variable值为CiC_iCi​,CiC_iCi​与YiY_iYi​的联合分布为f(Yi,Ci)f(Y_i,C_i)f(Yi​,Ci​)。如果把试验对象分为两组进行两种不同的处理,但如果分组的时候不随机分,有可能两组试验对象在处理前YiY_iYi​就已经有显著差异了,这个差异会导致偏差。因此要做随机试验!

Blinding

单盲指的是被试对象不知道自己在接受试验,双盲指的是被试对象和研究者都不知道自己在接受试验。一个比较简单的例子,在有的行为科学的试验中,如果被试对象知道在接受试验,它可能会变得比较performing,试验结果就会不那么可靠。而如果研究者知道自己在做试验,可能会倾向于收集对自己有利的数据。这些都会带来偏差。

减少抽样误差

消除了偏差之后能够保证treatment effect是无偏的,但无偏性保证的只是抽样分布的均值与真实分布一致,为了让估计的treatment effect更精确,我们希望treatment effect的抽样分布尽可能集中一点,所以需要减少抽样误差,抽样误差可以简单理解为抽样分布的方差。均方误差等于偏差的平方加上方差,对无偏估计而言,均方误差就等于方差。在试验设计中,均方误差又被称为统计误差,因此在无偏的基础上,只要再降低抽样误差就可以更进一步降低统计误差了。减少抽样误差一般有是那种做法,重复试验(replication)、平衡设计(balance)、区组设计(blocking)。

重复试验

重复试验指的是在相同的条件下进行多次试验并测量,要区分重复试验与重复测量的区别。假设nnn次重复试验的结果是Xi,i=1,⋯,nX_i,i=1,\cdots,nXi​,i=1,⋯,n,则样本均值的标准差为s/ns/\sqrt{n}s/n​,随着重复试验次数上升,样本均值的分布会越来越集中,统计误差会逐渐减少。因为每个样本XiX_iXi​是随机变量,重复测量的意思是对XiX_iXi​进行多次观察,得到XiX_iXi​的多个观察值,所以重复测量取平均降低的是测量的误差。

平衡试验和区组设计

平衡试验指的是接受不同treatment的units数量一致。这样做的好处是之后做假设检验的时候检验的势比非平衡试验大。区组指的是units的组合,这些组合具有相似的性质。区组设计主要是想用来解决nuisance factor的,nuisance factor是那些会对试验结果造成影响,但不在我们研究兴趣之中的那些因素,比如在天竺葵那个试验中,空气湿度就是一个nuisance factor。

UA MATH571B 试验设计I 试验设计简介相关推荐

  1. UA MATH571B 试验设计V 2K析因设计简介

    UA MATH571B 试验设计V 2K析因设计简介 222^222析因设计 ANOVA方法 回归方法 232^323析因设计 一个例子 上一讲结束的时候讨论了一般的析因设计,如果treatment ...

  2. UA MATH571B 试验设计V 析因设计简介

    UA MATH571B 试验设计V 析因设计简介 模型设定与假设 Response Surface 一般的析因设计 区组析因设计 之前讲过的单因素到Graeco-Latin Square设计处理的都是 ...

  3. UA MATH571B 试验设计 QE练习题 不使用代码分析试验结果I

    UA MATH571B 试验设计 QE练习题 不使用代码分析试验结果I 2014年5月第一题 2015年5月第一题 2016年5月第二题 2017年1月第一题 不使用代码分析试验结果考察的是对试验设计 ...

  4. UA MATH571B 试验设计 总结 试验的类型与选择

    UA MATH571B 试验设计 总结 试验的类型与选择 试验的意义,试验设计的意义 单个treatment factor的试验 多个treatment factor的试验 多个treatment f ...

  5. UA MATH571B 试验设计 2k析因设计理论下

    UA MATH571B 试验设计 2k析因设计理论下 Confounding Blocking 222^222析因设计 Blocking 232^323析因设计 principal block Fra ...

  6. UA MATH571B 试验设计 2k析因设计理论上

    UA MATH571B 试验设计 2k析因设计理论上 2k2^k2k析因设计 因子效应的计算 ANOVA table Single-replicate 2k2^k2k析因设计 2k2^k2k析因设计( ...

  7. UA MATH571B 试验设计VI 随机效应与混合效应3 嵌套设计

    UA MATH571B 试验设计VI 随机效应与混合效应3 嵌套设计简介 两阶段嵌套设计 前两讲介绍了两因素的随机效应与混合效应模型的统计方法,进行实验设计的时候思路与RCBD类似.试验有random ...

  8. UA MATH571B 试验设计 Quarter 2-level析因设计

    UA MATH571B 试验设计 Quarter 2-level析因设计 2k−22^{k-2}2k−2设计的基本概念 2k−22^{k-2}2k−2试验结果的SAS分析 Quarter 2-leve ...

  9. UA MATH571B 试验设计 QE练习题 平衡非完全区组设计BIBD

    UA MATH571B 试验设计 QE练习题 平衡非完全区组设计BIBD 2015年1月第一题 2018年1月第一题 2015年1月第一题 Part a 显然这是一个BIBD(Balanced Inc ...

最新文章

  1. Python使用matplotlib可视化Treemap图、treemap将分层数据显示为一组嵌套矩形,每一组都用一个矩形表示,该矩形的面积与其值成正比(Treemap)
  2. 控件测试功能点摘要2
  3. SpringBoot入门(二)——起步依赖
  4. 方正计算机软件保护进超级用户,超级用户权限补丁(SuperSU Pro)含刷机包
  5. ipconfig /flushdns 清除系统DNS缓存
  6. mysql5.5索引如何定义_MySQL5.5索引数在InnoDB引擎内与索引数在mysql中定义的数量是不一致问题-阿里云开发者社区...
  7. Stable Region Correspondences Between Non-Isometric Shapes
  8. el表达式原样输出问题
  9. php怎么查找函数库,php 查找字符串常用函数说明
  10. UE4【C++】子弹伤害系统使用
  11. java基础之java输入输出语句
  12. android动画哪些,Android Animation动画(很详细)
  13. 【IDE】【WebStorm】html排版设置head和body缩进
  14. canvas 擦除动画_Canvas 橡皮擦效果
  15. 在苹果手机上实现虹膜识别(通过改装实现)
  16. 2021-09-07 照书码——_——
  17. Batch Normalization在CNN中的原理,nb与lrb的区别
  18. 阿里测试工程师聊:软件测试需要学什么?
  19. Discuz!无法连接阿里云RDS数据库代理问题的处理方案
  20. lisp画示坡线_示坡线画法图文教程

热门文章

  1. Java正则表达式基础案例和语法
  2. Leetcode 138. 复制带随机指针的链表 解题思路及C++实现
  3. Leetcode 88. 合并两个有序数组 解题思路及C++实现
  4. [转]CS的顶级会议和期刊
  5. vue中比较完美请求的栗子(使用 axios 访问 API)
  6. Geany 权限问题:Error opening file ... : permission denied.,原因及解决办法。
  7. CTFshow 命令执行 web43
  8. HDU_1003 Max Sum
  9. C语言的指针*和引用
  10. 随机查找数组中第i个元素(按顺序排列的)