科学研究设计三：抽样

说明

这是Bangor University 2007年School of Sport Health & Exercise Sciences的教学讲义，大家可以在这里查看原课程的讲义

课程目录

1.什么是科学?
2.定量分析和定性分析
3.抽样
4.测量
5.实验设计
6.有效性
7.单案例设计

为什么要看这个？

这个在我看来，适合大学生或者刚入学的研究生学习，主要为了提高科学素养、培养科学研究的思维以及一些研究设计中要考虑的很多细节问题。虽然里面没有很多高超的方法，而且课程也是十年前的，但是里面对于科学的理解以及思考问题的思维方式确实值得刚进入科研这条不归路的人学习。

格式说明

标题格式都按照markdown排版的，但是标题之间的关系可能没有排好，主要是参考了原课程网站的标题设计
书中一些专有名词或者大牛们说的话都没有翻译，以防止因为我的问题导致误解
名人名言和我自己的理解都是用引言格式标注的，不同的是，大牛们的话是英文，我自己的理解是中文
因为课程中有问答环节，问题我会用加粗来标识，问题的答案一般会用斜体来标识

最后一句话

因为本人英文水平有限，有些话翻译得可能很别扭，有能力的话建议大家去看原网址。

这一课是关于抽样的：抽样是什么，为什么以及如何做，以及问题是什么。您应该按顺序浏览页面。为了从本课中获得最大收益，无论我提出一个问题，请花几分钟时间思考一下，然后再继续。

为什么抽样 Why do we sample?

有时当我们收集数据时，我们只关心人们的属性（通常是）或者实际提供数据的东西。例如，在SSHES的每个模块的最后，我们收集学生对模块的评估反馈。我们的目的是要找出你，学生对课程模块的想法。理想情况下（尽管在实践中这很少发生），每个学生完成反馈表。然后我们拿这些数据进行一些简单的分析来总结数据，如计算平均数和标准偏差。然后，我们感觉到这门课程的学生对这个模块的感受。当然，这些数据不能也不能告诉我们什么是学生对其他模块的感受，或者其他学生对我们所评估的模块的看法。在这种情况下，样本是感兴趣的人群。描述样本与描述总体相同。

然而，在大多数研究情况下，我们希望从我们的数据中学到一些比提供数据的特定个人更多的数据。例如，我们可能有兴趣描述精英运动员，久坐的人，适合的人等的属性。问题当然与参加模块的学生人口不同，这些人口往往非常庞大，不可能收集每个人的数据。因此，我们别无选择，只能获得感兴趣的人口样本。

当人口本身太大时，我们从人口中抽取样本，以便从其每个成员收集数据。

推理 Inference

当我们从一个人口中抽样时，我们并不真正对样本的性质感兴趣，而是对样本能够告诉我们的人群的的性质。换句话说，我们想从样本数据中得出有关所有人群的推论。这就是推理统计( inferential statistics)（如t-检验，方差分析，相关系数等）的全部内同：从中抽取样本中告诉我们抽样人群的差异（方差）或关系（在相关系数的情况下）。

代表 Representativess

因此，样本必须是其人群的代表。如果不是，那么我们就不能对所有人群进行任何推断，也没有任何统计学的魔法可以使我们这样做。例如，如果我想抽样SHES学生的人数（因为我没有时间或从每个学生那里收集数据），我的样本必须代表SHES学生团体，例如：性别平衡，年龄，学习成绩，健身情况等。假设我们百分之五十的学生是男性，百分之五十是女性。如果我的样本只包括百分之三十的女性，那么它将是有偏见的，不具代表性。同样，如果我想对整个班戈大学的学生团体进行推断，那么对SHES学生的人口进行抽样就没有多大用处。 SHES的学生与班戈大学的学生在许多方面会有所不同，比如在运动和锻炼方面的健身和兴趣方面（我希望！）。所以SHES的学生不会成为班戈全体学生的代表。根据我的问题，这可能或可能不重要。例如，我可能会对描述班戈学生的政治背景感兴趣。我不认为有什么理由认为SHES学生比一般学生更有可能以这种或那种方式投票。因此，为此目的，SHES学生的样本可能是班戈大学学生的代表。但如果我有兴趣了解学生对体育锻炼的态度，我会期望SHES学生的态度与普通学生显着不同，所以在这种情况下他们不具有代表性。所以有代表性的样本的另一个方面是它们应该适合他们的目的。

关于对整体人群的推论只有在样本准确地代表了感兴趣的人群的范围内才是有效的

获得一个有代表性的样本 Obtaining a representative sample

确保代表性的最明显的方法是选择一个随机样本。通过从总体中随机选择，应该能够避免样本中的任何系统偏差。这个看起来很直截了当，但实际上却充满了困难，正如我希望展示的那样。样本通常被描述为随机的（特别是由学生），而事实上他们并不是那种样子。

随机抽样 Random sampling

随机抽样有两种方法：简单随机抽样和分层随机抽样。我将更详细地描述分层随机抽样。简单的随机抽样就是这样的：人口的成员是随机抽取的，通过一些程序或其他。随机抽样的两种方法都是概率抽样的例子。在一个简单的随机样本中，每个人都有相同的选择机会。

在一个简单的随机样本中，每个人都有相同的选择机会

简单的随机抽样真的很简单吗 Is simple random sampling really so simple?

现在，简单的随机抽样并不像听起来那么简单。考虑以下抽样方法，这些方法通常被描述为随机的。

从帽子里抽取名字 Drawing names out of a hat

想要从研究方法课上的学生中获得N = 20的随机样本。我把他们的名字放在一顶帽子里，抽出20个。这是简单的随机抽样吗？

采用这种方法，取决于采样的确切程序。如果我把每个名字都从帽子里拉到一边，那么不行，这样就不会随机抽样了。假设班上有100人。第一个名字将有1/100的选择机会。如果我放弃这个名字，然后再抽，第二个人只有1/99的选择机会，第三个1/98，依此类推。被选中的几率随着越来越多的名字的抽出而增加。因此，每个人都没有相同的概率被选中。另一方面，如果我在选择后把每个名字都放回帽子里，帽子里总是会有100个名字，所以每个名字都有相同的选择机会。这被称为随机抽样与替换。但是，如果我多次选择同一个名字会发生什么？

没问题。你只要把这个名字放回帽子里，这样总有一百个可以选择！

不能理解

在通知栏上征求志愿者 Putting a notice on the board asking for volunteers

这可能是学生为他们的研究项目获取样本的最常见方式。是随机抽样吗？

这绝对不是随机的。首先，只有SHES的人可能会看到通知，所以只能吸引特定人群的成员。这可能是好的，这取决于你想回答的问题。然而，只有那些阅读布告牌的人才会看到这个（排除不那么敏锐，不那么知情的学生）。那么，那些看到的人中，只有一小部分会真正签约。所以样本最终由自选的志愿者组成。志愿者在很大程度上与一般人群有所不同：他们可能更有动力，更关心研究的内容，更需要参与以获得技能单位等。这并不意味着你不应该使用这种方法来为你的研究项目获取样本。对于大多数人来说，这是唯一可行的解决方案。但是这确实意味着你不应该把这样的样本描述成随机的。这个例子说明了随机抽样的问题。很难想象任何情况下都可能获得一个真正的随机样本，代表一般人群的参与者。无论你如何去做，最终都要由每个人选择是否参与。毕竟，研究伦理的原则要求我们给人选择参与研究的选择。

在联盟里寻找志愿者 Asking people in the Union bar

学生中另一种常见的方法。是随机抽样吗？

同样也不是！除了志愿服务的问题以及不是每个人都去吧，这个方法也有潜在的实验者偏见。即使这只是一个潜意识的决定，你也许只会问那些你认为准备同意参与的人。

阻止大街上的人 Stopping people in the High Street

有时在民意调查和市场调查中使用，路人在街上停下来，要求提供某种数据。是随机抽样吗？

再一次，答案是否定的，出于与最后一个例子相同的原因。你会接近一个挥舞着血溅斧头的旋转眼睛的裸体疯子，并要求他花一点时间来填写你的问卷吗？不太可能，是吗？也许是一个极端的例子，但是，可能有很多原因让你不准备在街上接近某个人。

从电话簿中随机选择姓名 Selecting names ‘at random’ from the phone book

那么这个方法怎么样？这可以描述为随机抽样？代表性呢？

那么，你可以随意选择名字，这不是什么大问题。但是并不是每个人都有电话，而不是每个人都在电话簿中。所以样本只能代表在电话簿中有姓名的人群！类似的情况是从选民登记册中随机选择姓名;不是每个人都在登记册上。无论如何，做出选择你还是有志愿者的问题。尽管如此，从实际角度来看，我们可能在这里尽可能接近真正随机的，有代表性的样本。

什么时候随机样本不具代表性 When random is not representative

因此，我们在这里有一些经常被描述为随机的抽样方法的例子，它们要么是不随机的，要么不是真正随机的，因为每个人都有平等的参与机会。

如果不是，则不要将样本描述为随机样本

另外一个问题是，即使奇迹出现了，我们也能得到一个真正随机的样本，这并不意味着它将代表我们感兴趣的人群。假设我们对精英运动员的心理技能感兴趣。我们获得一个“随机”的大学运动员样本，并测试他们的技能。显然，他们不能说是一个有代表性的样本。所以我们不能把我们的发现推广到给我们真正感兴趣的人群。

另一个严重的问题是，即使我们能够获得一个真正的随机抽样，也可能不是纯粹偶然的代表。样本可能恰好是比我们的目标人群更老，更合适，更胖或者其他任何东西。当我们获得小样本时，这种情况的可能性更大（为什么大样本一般是首选的原因之一）。一个方法是使用分层随机抽样的方法。

分层随机抽样 Stratified random sampling

分层随机抽样旨在基于感兴趣人群的已知属性，确保样本的代表性。例如，假设我们想随机抽取一些患有冠心病（CHD）的人。我们知道，冠心病的发病率因年龄而异。了解冠心病的发病率随着年龄的变化而变化，我们可以选择我们的样本来考虑这个因素。为了争辩，让我们假设从20多岁到60多岁的每个十年中冠心病的发病率如下：

因此，在冠心病患者中，5％的年龄在20-30岁之间，10%在30-40岁之间。这些群体或总人口中的每一个都被称为阶层。我做了这些数字，但可以想象，他们不是太遥远。顺便提一句，请想一想，为什么我在60+的范围内比50-60的范围低。

对我来说，60岁以上的冠心病患者比年轻的冠心病患者更有可能死亡。所以这个阶层的人少了

有了这些信息，我们可以构建一个准确反映CHD人群年龄平衡的样本。对于每100位参加者，我们选择参加研究，确保5位年龄在20-30岁之间，10位年龄在30-40岁之间，20位年龄在40-50岁之间。

采用分层随机抽样，不是每个总人口成员都有相同的被抽中机会，像简单的随机抽样一样。但是根据我们对每个阶层人员百分比的了解，任何成员被选中的概率是已知的。在这个例子中，年龄在20-30之间的被选中的概率是5/100（1/20或0.05）;对于30-40岁的人来说，这是10/100（1/10或者0.10）等等。如果你考虑50-60岁成员比例最高的阶层，这应该是有意义的。他们中有更多的人，所以他们的选择概率应该大于任何其他阶层的成员。

不过要注意的是，由于这是分层随机抽样，我们还是要随机抽取20〜30岁有冠心病，30〜40岁有此病的人群，所以我们还是要面对所有人获得一个真正的随机样本的问题。但至少我们知道样本在年龄方面不会有代表性。有一个类似的抽样方法称为配额抽样(Quota sampling)。采用这种方法，我们采用完全相同的程序，但没有从总人口的每个阶层随机抽样。因此，我们可以通过我们掌握的任何方式从每个阶层获得一个参与者的名额。配额抽样是非概率抽样的一个例子。

非概率抽样 Non-probability sampling

现在很明显的是，除非总人口是固定的或有限的，而且不是太大（如SHES学生的人口），以便选定任何成员的概率是可知的，否则真正的随机抽样是不可行的。当我们抽样不知道任何成员被选中的概率时，我们正在进行非概率抽样。实际上，这是最常用的抽样类型。非概率抽样有三种方法：我们已经遇到的配额抽样，任意抽样(convenience sampling)和有目的抽样(purposive sampling)。

任意抽样就是这样的：我们只要把握恰到好处的人就可以了。到目前为止，在人类和行为科学研究中最常用的取样方法是使用本科生的任意抽样。像豚鼠一样，它们相当容易获得，发生的数量相对较多，并且不要过多地抱怨参与，只要保持良好的喂养。与豚鼠不同，他们也可以通过提供某种形式的课程学分而受到诱惑。

目的抽样涉及针对一个特定的群体，因为它是我们感兴趣的群体。例如，如果我们对精英运动员感兴趣，那么我们针对精英运动员。所以在这种情况下，参与者必须符合一些预先确定的标准。

减员率和回应率 Attrition and response rates

消耗，有时被称为主体死亡(subject mortality)，意味着退出（而不是参与者死亡）。消耗可能导致纵向研究中的问题，在这些研究中数次从同一样本收集数据。问题是，你可以从一个（相对）随机的样本开始，但如果人们退出，它可能不会保持随机。例如，假设你正在研究健美操班参与者的态度和动机因素。你招募一个“随机”样本100，衡量他们的态度和动机，然后为他们跑健美操课程十二个星期，然后再采取措施。一开始，由于随机选择，你的态度和动机有了合理的变化，一些参与者有积极的态度，有些则不如其他人更积极。在研究过程中30％退出。可能有30％的积极态度较少，动机不如那些坚持。所以最终样本与初始样本完全不同，不再是感兴趣人群的随机表示。

如果参与者退出，随机抽样可能不会随机抽样

类似的问题涉及回应率。在基于问卷调查的研究中，通过某种方式（例如选举登记）选择一个相对随机的样本并将问卷打包出去是相当普遍的。通常情况下，只有少数收到包裹的人完成并退回。答复率是返回问卷的参与者的百分比。这样的研究受到了我们已经遇到的自我选择和志愿者问题的困扰，只有更有动机的人或有兴趣的人回答问卷，他们在许多方面与不选择参与者不同。

解决方法 Solutions?

这些抽样问题没有真正的解决办法。但是，我们所能做的就是对样本的性质严格诚实。首先，抽样程序应该总是被充分详细地描述，以便读者能够决定样本代表感兴趣的人群。只说“获得随机样本”是不够的。我们想知道它是如何获得的。其次，样本的特征也应该详细描述：他们的年龄，性别平衡，教育水平，职业，身体特征或与学习问题相关的任何事情。这样，读者可以再次确定样本的代表性。在纵向研究中，可以使用这些特征的数据来比较完成研究的退出率。如果他们之间没有明显的差异，那么退出可能没有太大的影响。

随机抽样与随机分组 Random sampling versus random assignment to groups

不要混淆随机抽样和随机分组。在谈到抽样时，我们只是首先讨论获得一个研究参与者的池，而不是一旦你拿到了他们就做什么。在实验性研究中，通过抽样感兴趣的人群，您通常会将参与者分配到一个或多个组，例如实验组，治疗组和对照组。这也必须随机完成，否则最终可能导致各组之间的系统差异。我们经常在学生招募他们的研究项目时看到的一个非常糟糕的实践的例子是这样的：学生正在进行一项研究，以确定运动训练对某些生化标记的影响。参加者将在跑步机上以高强度跑步一个小时，每周三次，每周三次，或者是一个没有受过训练的对照组的成员。生化指标将在研究结束时进行评估，并对两组进行比较。学生通过在招募栏上发出通知要求人们报名参加治疗组或控制组招募新人。这有什么问题？

显然，志愿参加培训组的人比那些报名参加对照组的人可能更适合和/或更好地接受培训。因此，测试后生物化学标志物的任何差异可能是由于适应性在实验研究中，随机抽样是不够的。参与者也必须被随机分配到组开始的差异而不是由于训练所致。

在实验研究中，随机抽样是不够的。参与者也必须被随机分到不同的组